DW学习-二手车预测赛题分析

一、赛题解析

1.赛题概况

以二手车市场为背景,预测二手汽车的交易价格。数据源于交易平台的二手车交易记录,总数据量超过40W,31列变量信息,15列为匿名变量。为保证比赛公平,抽取15万条作为训练集,5万为测试集A,5万为测试集B,对name、model、brand和regionCode信息进行脱敏。
注:此处数据并未直接显示漂移的误差或误报等异常,异常点需要先处理掉。
行为流程内的关联与关系,业务逻辑理解。
模型的泛化能力。
样本量的大小,生成的特征-电脑的承载。

2.赛制说明

赛事分为两个阶段,分别为正式赛即长期赛。
正式赛(3.12-4.11)

  1. 每天提交两次,排行榜每小时更新,测评指标从高到低排序,最优成绩进行展示。
  2. 最后一次更新为11日晚上20点。
  3. 下载数据,本地调试算法,左侧提交入口结果。
    长期赛(4.11后)
    4月1日后长期开放,无时间限制。

3. 数据概况

题目字段表

FieldDescription备注
SaleID交易ID,唯一编码
name汽车交易名称,已脱敏汽车市场性信息脱敏
regDate汽车注册日期,例如20160101,或201601月01日此处理解为上市时间
model车型编码,已脱敏
brand车型品牌,已脱敏
bodyType车身类型:豪华轿车-0,微型车-1,厢型车-2,大巴车-3,敞篷车-4,双门汽车-5,商务车-6,搅拌车-7
fuelType燃油类型:汽油-0,柴油-1,液化石油气-2,天然气-3,混合动力-4,其他-5,电动-6
gearbox变速箱:手动-0,自动-1
power发动机功率:范围[0,600]
kilometer汽车已行驶公里,单位万km
notRepairedDamage汽车有尚未修复的损坏:是-0,否-1真实性产生怀疑
regionCode地区编码,已脱敏
seller销售方:个题-0,非个体-1
offerType报价类型:提供-0,请求-1
creatDate汽车上线时间,即开始售卖时间与regDate相减
price二手车交易价格(预测目标)
v系列特征匿名特征,包含v0-14在内15个匿名特征保密性处理,多生成进行筛选
	字段表加入备注(后补),主要对数据类型和业务方面进行补充说明。

其中,有一列为v系列特征属于匿名特征,包含0-14在内的15个匿名特征,需要做匿名特征处理。

4. 预测指标

评测指标不同,判断标准不一样,最佳状态是训练的验证标准与线上评测保持一致。
评价标准为MAE(Mean Absolute Error)
在这里插入图片描述
根据上述的预测指标,注意以下几点:
① 绝对误差的平均值,为反应预测值误差的实际差距。
② 单个数值的预测指标离原有的真实数值差距过大时对预测指标有一定影响,受到价格单位的影响,需要考量原数据类型。
③ 相对于其他预测指标的评判而对实际业务的标准判断应用性产生疑问。
注:评估指标是对一个模型效果的数值量化,是针对模型效果和理想效果之间的一个打分,常见如下:
① 分类算法常见评估指标

  • 二类分类器/分类算法:accuracy, Precision, Recall, F-score, Pr曲线,ROC-AUC曲线
  • 多累分类器/分类算法:accuracy, 宏平均和微平均,F-score
    ② 回归预测常见的评估指标
  • 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error),R2(R-Square)

5. 分析赛题

题目以二手车市场为交易,预测二手汽车的交易价格,为数据挖掘中典型的回归问题,主应用XGBoost、Lgb、Catboost等。常用pandas、numpy、matplotlib、seabon、sklearn、keras、missing等常用挖掘库或框架。
原二手汽车交易记录有40W条,取15万作为训练集,两个5万作为测试集,即共25万条数据,另有15万条数据未用,需要一定的泛化能力,防止过拟合。原信息有4列进行脱敏,这个在一定程度上决定了数据挖掘的上限。另有一列为匿名特征,需要做匿名特征处理。
通过EDA来挖掘数据的关联并熟悉数据。

二、业务解析

1.业务概况

由于时间问题,暂时以【Overfitting is watching you队】的业务资料为主进行业务了解,具体请参考链接: 二手车赛题理解
二手车的价格主要参考两部分因素,一部分是选车的硬性指标,例如车型即车身类型,例如轿车、敞篷等;车子的配置,例如变速箱、发动机的功率和燃油等指标;车况即车子是否维修过;车子里程;违章是否解决和上市时间等等。另一部分是购车时的软性指标,例如地域,同一种车辆不同地域的价格有所不同;购车时间、购车渠道都会对同一二手车有不同的影响。所以在实际二手车价格的预测中均要考量。
数据指标的选择往往决定了数据分析的上限,原有的数据指标是否包含了业务层面的诉求?二手车价格的预测结果是否满足实际业务的需求?下面将对原有的数据指标和实际业务指标进行对比分析。

2.业务指标

一般市场业务指标

FieldDescriptionConnected Index
车型车身类型:如同豪华轿车-0,微型车-1,厢型车-2,大巴车-3,敞篷车-4,双门汽车-5,商务车-6,搅拌车-7bodyType
配置燃油类型、变速箱、发动机功率fuelType & gearbox & power
车况汽车有尚未修复的损坏:是-0,否-1notRepairedDamage
里程汽车已行驶公里,单位万kmkilometer
上市时间汽车发布上市时期regDate
地域地区编码,已脱敏regionCode
违章次数交通违章次数None
购车时间已购此车辆的具体时间点与creatDate相关
购车渠道销售方:个题-0,非个体-1seller
price二手车交易价格price

对比表1和表2找出业务理解与原数据指标的相关性,可以发现
① bodyType、fuelType & gearbox & power、notRepairedDamage、kilometer、 regDate、regionCode 、creatDate、seller 特征与价格预测影响性较强。
② 业务理解中的违章次数表1并没有明确标明,从业务指标对比可以看出,原数据指标至少包含业务指标的88%以上,满足率相对较高。
③ 表1有15个匿名特征,是否包含业务理解的违章次数由公司业务决定,但违章次数是购二手车的必备选车条件之一,在次不排除v系列特征对二手车价格的高指标影响。

3.业务分析

二手车的价格判定源于市场,常见的市场二手车估价方法有四种,具体方式如下:

① 残值法

新车使用10年视为报废,15%作为不折旧的固定部分为残值,其余85%为浮动折旧值。可分三个阶段:3年-4年-3年折旧,折旧率分别为11%、10%和9%,前三年每年折11%。
计算公式为:评估价=市场现行新车售价×[15%(不动残值)+85%(浮动值)×(分阶段折旧率)]+评估值。
评估值:应考虑该车在当地的保有量和车况(外观、保养程度),酌情给出评估值(一般为新车价的2%~5%)。

② 折旧法

二手车分为十年计算,分为三个阶段,前三年每年折旧15%,中间四年每年折旧10%,最后三年每年折旧5%。以一台10万的车子为例
第二年: 10*(1-15%)= 8.5万
第三年: 8.5*(1-15%)=7.2万
……

③ 重置成本法

把车子寿命算作15年,精确到月份,具体公式如下
二手车价格 = 当前新车价*(180- 已使用月份)%180

④ 里程法

一部车有效寿命30万公里,将其分为5段,每段6万公里,每段价值依序为新车价的5/15、4/15、3/15、2/15、1/15。
假设新车价12万元,已行驶7.5万公里(5年左右),那么该车估值为12万元×(3+3+2+1)÷15=7.2万元。

综上,上述四种常见的市场二手车价格预算中,三种以车子的寿命(使用时间)作为唯一参考标准,一种以车子的里程作为唯一参考标准,与实际预测情况而言都不具有科学严谨性。但是假设上述方法是市场主流的价格预测方法,则市场价格偏好以寿命和里程为主要参考标准,即原数据指标中的两个时间和里程,其他指标有一定的参考性。

三、数据分析

1.数据介绍

a)数据载入
b)数据总览
c)数据检测
d)预测分布

2.特征分析

a)数字特征
b)类别特征

3.数据报告

四、阶段总结

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值