1. 赛题概况
- 任务:预测二手车交易价格
- 数据:来自某交易平台的二手车交易记录,数据量超过40w,包含31列变量信息,其中15列为匿名变量,抽取15w条作为训练集,5万条作为测试集A,5万条作为测试集B,同时对对name、model、brand和regionCode等信息进行脱敏。
2. 数据概况
注:脱敏处理后均为label encoding形式,即数字形式
Field | Description |
---|---|
SaleID | 交易ID,唯一编码 |
name | 汽车交易名称,已脱敏 |
regDate | 汽车注册日期,例如20160101,2016年01月01日 |
model | 车型编码,已脱敏 |
brand | 汽车品牌,已脱敏 |
bodyType | 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7 |
fuelType | 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6 |
gearbox | 变速箱:手动:0,自动:1 |
power | 发动机功率:范围 [ 0, 600 ] |
kilometer | 汽车已行驶公里,单位万km |
notRepairedDamage | 汽车有尚未修复的损坏:是:0,否:1 |
regionCode | 地区编码,已脱敏 |
seller | 销售方:个体:0,非个体:1 |
offerType | 报价类型:提供:0,请求:1 |
creatDate | 汽车上线时间,即开始售卖时间 |
price | 二手车交易价格(预测目标) |
v系列特征 | 匿名特征,包含v0-14在内15个匿名特征 |
3. 预测指标
-
本赛题的评价标准为平均绝对误差MAE(Mean Absolute Error): M A E = ∑ i = 1 n ∣ y i − y i ^ ∣ n MAE=\frac{\sum_{i=1}^{n}\left | y_i - \hat{y_i}\right |}{n} MAE=n∑i=1n∣yi−yi^∣
其中 y i y_i yi代表第 i i i个样本的真实值, y i ^ \hat{y_i} yi^代表第 i i i个样本的预测值。举例: 真实值 y = ( 15 , 20 , 12 ) y=(15,20,12) y=(15,20,12),预测值 y i ^ = ( 17 , 24 , 9 ) \hat{y_i}=(17,24,9) yi^=(17,24,9),则: M A E = ∣ 15 − 17 ∣ + ∣ 20 − 24 ∣ + ∣ 12 − 9 ∣ 3 = 3 MAE=\frac{\left | 15-17\right |+\left | 20-24\right |+\left | 12-9\right |}{3}=3 MAE=3∣15−17∣+∣20−24∣+∣12−9∣=3
M A E MAE MAE越小,说明模型预测得越准确 -
常见评估指标
问题类型 常见评估指标 二分类问题 accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线 多分类问题 accuracy, [宏平均和微平均,F-score] 归回预测 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)
4. 分析赛题
- 此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模
- 此为为典型回归问题
5. 经验总结
赛题理解是极其重要的,对于赛题的理解会影响:特征工程构建、模型选择和后续发展工作的方向,比如挖掘特征的方向或者存在问题解决的方向。
- 赛题理解:从直观上梳理问题,分析问题是否可行的方法,有多少可行度,赛题做的价值大不大。也要理解其业务逻辑,可能有意义的外在数据有哪些,数据之间关联逻辑是什么。
- 理解分析:此题难点可能在哪里,关键点可能在哪里,哪些地方可以挖掘更好的特征,用什么样得线下验证方式更为稳定,出现了过拟合或者其他问题,估摸可以用什么方法去解决这些问题,哪些数据是可靠的,哪些数据是需要精密的处理的,哪部分数据应该是关键数据。
- 评价指标:很多情况下,线上验证是有一定的时间和次数限制的,所以在比赛中构建一个合理的本地的验证集和验证的评价指标是很关键的步骤,能有效的节省很多时间;不同的指标对于同样的预测结果是具有误差敏感的差异性的,有可能会影响评价侧重点。
- 要关注赛题背景的隐藏条件,赛题中的有些说明可以在后续答辩中以及问题思考中体现出来,如高效性要求、数据异常的识别处理、工序流程的差异性等。如果模型预测效果不好,要反过来思考,是不是赛题背景有哪些方面理解不清晰或是未考虑到。
以上引用自Datawhale 零基础入门数据挖掘-Task1 赛题理解 — By: AI蜗牛车
公众号: AI蜗牛车
知乎: https://www.zhihu.com/people/seu-aigua-niu-che
github: https://github.com/chehongshu