竞赛 | 上汽拿出了2000辆车的真实数据集,千万级投资+直接录用机会等你来战!...

 

大数据分析挖掘正成为汽车行业提升竞争力的全新支点。

 

今年,在上海市科委和经信委指导下,上汽集团联手上海大数据联盟、上海市北高新管委会(上海大数据产业基地)共同打造了“2018 BOT智能汽车大赛”(第三届上海BOT智能汽车数据智能创新应用国际大赛),上汽集团副总工程师祖似杰、上汽集团数据业务部副总经理刘峰亲自担任大赛评审专家。

 

作为已成功举办两届的全国知名品牌赛事,本届BOT大赛瞄准大数据及AI技术在汽车行业的应用,现正面向全球招募优秀技术人才和创业项目。

 

 

上汽出手,谁来接招

 

本届大赛分为“技术挑战赛”和“创新创业赛”,上汽集团皆有加盟,不仅根据人才、合作和战略需求设计了题目,还为参赛者开放了经过脱敏的真实车辆数据以供利用。下面,我们就来为各位蠢蠢欲动的技术咖们解读一下本届BOT大赛的上汽赛题:

 

 

上汽+技术挑战赛

 

 

真实车辆数据在手,车流预测怎么操作?

 

赛题背景

 

随着城市里购车人群的增多,道路拥堵情况日益严重:在中国,有大约超过50个城市面临不同程度的拥堵,城市越大拥堵越严重,不只中国,交通问题是世界大型城市的共同顽疾,据相关数据显示,欧盟境内每年因交通拥堵造成的经济损失达到了1000亿欧元。

 

如果能够及时评估交通拥堵情况,从时间和空间维度上预测车流量,对城市规划和交通管理会有很大的参考价值。

 

赛题简介

 

上汽将提供总共2000辆上汽新能源车和非新能源车历史出行数据(数据皆经过脱敏,初赛数据集1000辆,复赛数据集1000辆)期待参赛团队运用机器学习和人工智能的技术,开发算法模型,通过算法进行精准车流量预测,探索人工智能技术在汽车出行场景创新应用的更多可能。

 

技术赛参赛说明&提示

 

训练数据说明

 

1. 参赛团队于初、复赛两个阶段总共将获取2000辆上汽新能源车和非新能源车的20170102-20170326期间10周脱敏的历史出行数据(初赛数据集1000辆,复赛数据集1000辆),数据集包含了车辆出行的相关字段(比如车辆的经纬度、工作模式等)。

 

初复赛数据总共约45G,选手们要考虑好如何读取数据以及压缩数据。

 

2. 数据在采集和传输的过程中必然会产生噪音数据,比如经度、纬度不在中国境内的数据值,比如某个字段的数据值超出了数据字典中相应字段的数值范围或者枚举类型,某些字段的数据中也会出现缺失值的情形。如何对这些情形进行有效的数据清洗以及数据处理是选手需要注意的。

 

测试网格信息说明

 

1.本次比赛要求选手预测是【20170313,20170326】两周内9点和22点之间每个小时内相应网格的车流量预测。每个小时每个网格内车流量的定义就是这个小时内经过这个网格的车的数量,每个车只计数一次。

 

2. 网格信息里包含网格ID和网格经度、纬度范围,这些网格有可能完全位于上海市内,有可能处于上海和周边城市交界,有可能完全位于紧邻上海的周边城市。

 

3. 初赛的车流量预测是基于初赛提供的1000辆车历史脱敏数据,复赛的车流量预测需基于复赛提供的1000辆车历史脱敏数据和初赛已有的1000辆历史脱敏数据,总共2000辆车的历史脱敏数据。初复赛的车流量预测限定在比赛提供的车辆数据,网格的车流量只考虑比赛提供的车辆在相应时间段内是否经过相应网格,比赛车辆数据以外的社会车辆不在车流量预测的计算范围之内。

 

其他源头数据的使用

 

1. 在比赛过程中,选手也可以使用一些免费公开的数据,比如天气信息和公开的充电桩信息等,但要提醒各位选手,如果进入复赛后要提供这些数据的使用说明文件,详细细则请以官网为主。

 

选择适合的算法模型

 

1. 鼓励大家结合比赛的数据,可以创新性的使用现有算法来建立模型,比如时间序列等现有算法,也可以使用深度学习算法,设计合适的网络进行流量预测。  

 

比赛时间

 

比赛报名:2018年7月3日-2018年9月26日

 

决赛答辩:2018年10月(暂定)

 

更多时间节点详见文末“阅读原文”~

 

 

上汽+创新创业赛

 

 

真实场景+真实需求,技术应用如何得解?

 

场景1:基于上汽新能源车数据,可与其他行业数据结合,帮助优化新能源车设计与配套软硬件建设,让创新应用取代政府补贴,真正做到用户愿意用,车厂愿意造。

 

数据集:上汽新能源车数据出行数据(经过脱敏)

 

场景2:使用车辆出行数据,与其他行业数据结合,寻找具有创新性的数据应用和创业方向。

 

数据集:上汽新能源车与非新能源车出行数据(经过脱敏)

 

题说明

 

参赛团队任选场景,使用大数据人工智能技术,根据罗列的场景以及脱敏数据集(可结合外部数据),提交基于场景的商业计划书,商业计划书需具有可操作的商业模式和可实施的技术说明。优秀团队可实现与需求提供方快速对接及应用落地,参赛团队也可自选智能汽车相关的创业方向。

 

比赛时间

 

比赛报名:2018年7月17日—2018年10月8日

产业对接会:2018年9月

决赛路演:2018年 10月

(更多时间节点详见文末“阅读原文”)

 

 

奖金+合作+招募+创业

 

 

是技术人的舞台,更是职业理想的加速器

 

合作机会:凡是选择了上汽所出题目并给出优秀答案或应用计划书的参赛者将有机会直接与上汽对接,进而达成项目合作。

 

人才通道:想加入上汽的优秀参赛者将获得面试直通车等优先录用福利。

 

创业大礼:参赛的优秀创业团队能以最优政策入驻优质创业园区,享受办公场地免租、税收、企业补助等超值创业扶持优惠大礼。

 

大咖指导:大赛邀请来自大数据、人工智能领域的高校教授、技术专家,以及汽车领域企业高管,为参赛提供专业咨询和指导;8月末更有赛题相关技术论坛,一线行业技术咖将坐镇分享;赛后,优胜的学生参赛者有机会享受上汽集团导师项目(课题设计、毕业论文指导)。

 

大赛组委会对以上奖励拥有最终解释权~

 

想了解更多赛题信息?

☟点击视频,上汽集团数据业务部副总经理刘峰为您亲自解读


 

谁能报名?

 

作为专业的全球性大数据人工智能竞赛,本次大赛面向全球开放,无论你是:

志在城市计算和大数据领域的学生,

还是一个已经在搬砖的码农,

又或从事数据分析或者算法研究的想成为大神的前行者,

甚至是来自跨界领域但对相关领域感兴趣的朋友

……

我们都欢迎你在BOT智能汽车大赛上大展身手!

 

经验不是至高标准,态度与思路才是致胜法宝,你可以把从课本上学到但还没有亲自用过的模型和算法全都轮番上阵,只有做过一遍,才是真正的理解和掌握。技术人的舞台期待你的身影!

 

☟扫二维码,即刻报名参赛!

 

 

大赛主题系列活动预告☟

 

比赛合作及咨询

 

BOT智能汽车大赛组委会:

杜老师:

联系电话:021-3131-7637

邮箱:Shuwan.du@timerchina.com

 

戴老师:

联系电话:182-2119-7707

邮箱:serein.dai@datadreams.org

 

大赛合作咨询:

贾老师:

联系电话: 021-3131-7622

邮箱:Wen.jia@timerchina.com

 

2018 BOT智能汽车大赛现已全面上线,全球火热招募正在进行。点击下方“阅读原文”进入官网,了解更多大赛详情及赛题信息。

转载于:https://www.cnblogs.com/DataDreams/p/9487963.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 项目背景 基于项目提供的汽车相关数据,通过聚类分析的方法实现汽车产品聚类,以构建汽车产品画像、分析产品定位、完成汽车竞品分析等要求。 2. 项目数据 项目提供的汽车数据包括26个字段共205条数据,数据文件为“car_price.csv” 26个字段可以划分为类别型变量和数值型变量两种,包括汽车的长/宽/高、汽车净重、燃油系统、燃油类型、驱动类型、峰值转速、里程数、汽车价格等。 3. 项目要求 通过聚类的方法构建汽车产品画像、分析不同类别汽车的产品定位,寻找Volkswagen大众汽车的竞品品牌。 4. 项目思路 第一步:数据字段理解 根据项目所提供的数据,对数据中26个字段进行理解。结合汽车行业的相关知识,26个字段可以大致归为两类:第一类是车辆自身属性(如燃油系统、燃油类型、汽缸数、峰值转速、汽车长宽高等);第二类是车辆的市场属性(如车辆名称、车辆价格、风险评估等级)。 26个字段主要分为数值型变量和类别型变量两类。 第二步:原始数据描述性统计及变量分布可视化 对原始数据进行描述性统计并对数据中的字段分布进行可视化(详情见主文档)。通过对原始数据的观察,数据不存在缺失值、不存在重复值,“CarName”字段存在部分车辆品牌名称错误的情况。 第三步:确定聚类方法,明确聚类要求 通过对原始数据的变量观察,该数据变量主要为数值型变量和类别型变量两类,且类别型变量数量较多,常用的K-means聚类只能分析数值型变量,无法考虑类别型变量所包含的信息。二阶段聚类法适用于包含数值型和类别型变量的混合数据,因此考虑使用二阶段聚类法分析数据。 二阶段聚类法的要求是:类别型变量符合多项式分布(即变量的值分属几个类别);数值型变量间要相互独立,且数值型变量近似服从正态分布。项目所给出的数据中,类别型变量符合多项式分布,因此仅需进一步观察并处理数值型变量。 第四步:特征工程 数据清洗与新变量生成。原始数据指给出了车辆的名称,没有给出车辆所属品牌,结合最终聚类分析的需要,根据“CarName”字段提取出车辆所属品牌信息,命名为“brand”。同时对品牌名称中的错误拼写进行清洗。 变量相关性分析与可视化。由于二阶段聚类要求数值型变量间相互独立,所以需要对数值型变量间的相关性进行查看与处理。相关性分析结果表示14个数值型变量之间存在高相关性情况,需要结合汽车知识背景与变量特征进行进一步处理。 高相关变量的处理——“highwaympg”和“citympg”呈高度正相关。其实不管是高速mpg还是城市mpg,其本质都是mpg指标,而且通过观察数据,二者之间的差异较小(极值、均值),因此考虑将二者合并为一个指标'mpg',计算方式为取二者均值:mpg=(highwaympg+citympg)/2; 高相关性变量的处理——“price”变量与其余变量产生高相关性的频数最多,可能是因为车辆自身属性和配置的变动会直接影响着车辆的市场价格。此外,与其他变量相比,price属性属于车辆的市场销售属性(而非车辆自身属性),在聚类中更适合作为类别型变量,对车辆的价位进行划分,因此,考虑将price变量转换为类别型变量,按照其价格分布划分为Low price(20000)三类; 高相关性变量的处理——对于其余数值型变量,变量数目较多且多个变量之间存在相关性,因此考虑使用因子分析对数值型变量进行降维,以减少数值型变量的数目并使变量间相互独立。 第五步:数值型变量因子分析结果(基于SPSS实现) 利用SPSS对数值型变量进行因子分析,KMO值>0.8,巴特利球形检验p值=0,说明参与因子分析的变量间存在相关性,可以进行因子分析。最终得到两个因子。 第一个因子包括:车长、车宽、车净重、引擎尺寸、车轴距、mpg、马力、车内径比。简单将该因子归纳为车辆截面与马力因子; 第二个因子包括:车高、峰值转速、车压缩比。简单将该因子归纳为车辆垂面与转速因子; 第六步:两阶段聚类及结果(基于SPSS实现) 对处理后的数据进行两阶段聚类,最终将205辆车聚为两类。 根据SPSS聚类结果,第一类中包含120条车辆数据,占总数据的58.5%;第二类中包含85条车辆数据,占总数据的41.5%。两类簇数据规模近似,没有过大或过小的类簇。 根据SPSS聚类结果,聚类质量属于“良好”范围,仍有进一步改进和优化的空间。 根据SPSS聚类结果,显著区分两类类簇的变量(重要性>0.6)按重要性大小排序依次是驱动类型、燃油系统、车辆截面与马力因子、价格范围。 汽车产品画像与产品定位 根据区分类簇的四个重要标签来对数据中的汽车产品进行产品画像与产品定位。 第一类画像:驱动类型多为fwd(前轮驱动),燃油系统多
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值