【数据挖掘】二手车交易价格预测大赛-赛题理解

【数据挖掘】二手车交易价格预测大赛-赛题理解

赛题链接:https://tianchi.aliyun.com/competition/entrance/231784/introduction

1.赛题准备

  1. 任务目标:预测二手汽车交易价格
  2. 数据集:一个训练集(15万条)和一个测试集(5万条),以及一个应提交的结果模板。训练数据集中包含
  3. 解决思路:

2.赛题理解

2.1 赛题数据

该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

FieldDescription
SaleID交易ID,唯一编码
name汽车交易名称,已脱敏
regDate汽车注册日期,例如20160101,2016年01月01日
model车型编码,已脱敏
brand汽车品牌,已脱敏
bodyType车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
fuelType燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
gearbox变速箱:手动:0,自动:1
power发动机功率:范围 [ 0, 600 ]
kilometer汽车已行驶公里,单位万km
notRepairedDamage汽车有尚未修复的损坏:是:0,否:1
regionCode地区编码,已脱敏
seller销售方:个体:0,非个体:1
offerType报价类型:提供:0,请求:1
creatDate汽车上线时间,即开始售卖时间
price二手车交易价格(预测目标)
v系列特征匿名特征,包含v0-14在内15个匿名特征

2.2 评测标准

评价标准为MAE(Mean Absolute Error)。

若真实值为 y = ( y 1 , y 2 , . . . , y n ) y=(y_1,y_2,...,y_n) y=(y1,y2,...,yn),模型的预测值为 y ^ = ( y ^ 1 , y ^ 2 , ⋯   , y ^ n ) \widehat{y}=\left ( \widehat{y}_1, \widehat{y}_2,\cdots ,\widehat{y}_n\right ) y =(y 1,y 2,,y n),那么该模型的MAE计算公式为
M A N = ∑ i = 1 n ∣ y i − y ^ i ∣ n MAN=\frac{\sum_{i=1}^n\left | y_i-\widehat{y}_i \right |}{n} MAN=ni=1nyiy i

MAE越小,说明模型预测得越准确。

2.3 结果提交

提交格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。

形式如下:

SaleID,price
150000,687
150001,1250
150002,2580
150003,1178
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值