Datawhale组队学习 Task1-赛题理解

最新推荐文章于 2020-08-20 23:06:35 发布

mintminty

最新推荐文章于 2020-08-20 23:06:35 发布

阅读量237

点赞数

分类专栏：实例

本文链接：https://blog.csdn.net/mintminty/article/details/105010138

版权

11 篇文章 4 订阅

订阅专栏

任务：预测二手车交易价格
数据：来自某交易平台的二手车交易记录，数据量超过40w，包含31列变量信息，其中15列为匿名变量，抽取15w条作为训练集，5万条作为测试集A，5万条作为测试集B，同时对对name、model、brand和regionCode等信息进行脱敏。

注：脱敏处理后均为label encoding形式，即数字形式

Field	Description
SaleID	交易ID，唯一编码
name	汽车交易名称，已脱敏
regDate	汽车注册日期，例如20160101，2016年01月01日
model	车型编码，已脱敏
brand	汽车品牌，已脱敏
bodyType	车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
fuelType	燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
gearbox	变速箱：手动：0，自动：1
power	发动机功率：范围 [ 0, 600 ]
kilometer	汽车已行驶公里，单位万km
notRepairedDamage	汽车有尚未修复的损坏：是：0，否：1
regionCode	地区编码，已脱敏
seller	销售方：个体：0，非个体：1
offerType	报价类型：提供：0，请求：1
creatDate	汽车上线时间，即开始售卖时间
price	二手车交易价格（预测目标）
v系列特征	匿名特征，包含v0-14在内15个匿名特征

本赛题的评价标准为平均绝对误差MAE(Mean Absolute Error): $MAE=\frac{\sum_{i=1}^{n}\left | y_i - \hat{y_i}\right |}{n}$
其中 $y_i$ 代表第 $i$ 个样本的真实值， $\hat{y_i}$ 代表第 $i$ 个样本的预测值。

举例：真实值 $y = (15, 20, 12)$ ，预测值 $\hat{y_i}=(17,24,9)$ ，则： $MAE=\frac{\left | 15-17\right |+\left | 20-24\right |+\left | 12-9\right |}{3}=3$
$M A E$ 越小，说明模型预测得越准确

常见评估指标

问题类型	常见评估指标
二分类问题	accuracy， [Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线
多分类问题	accuracy， [宏平均和微平均，F-score]
归回预测	平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），平均绝对百分误差（Mean Absolute Percentage Error，MAPE），均方根误差（Root Mean Squared Error）， R2（R-Square）

赛题理解是极其重要的，对于赛题的理解会影响：特征工程构建、模型选择和后续发展工作的方向，比如挖掘特征的方向或者存在问题解决的方向。

赛题理解：从直观上梳理问题，分析问题是否可行的方法，有多少可行度，赛题做的价值大不大。也要理解其业务逻辑，可能有意义的外在数据有哪些，数据之间关联逻辑是什么。
理解分析：此题难点可能在哪里，关键点可能在哪里，哪些地方可以挖掘更好的特征，用什么样得线下验证方式更为稳定，出现了过拟合或者其他问题，估摸可以用什么方法去解决这些问题，哪些数据是可靠的，哪些数据是需要精密的处理的，哪部分数据应该是关键数据。
评价指标：很多情况下，线上验证是有一定的时间和次数限制的，所以在比赛中构建一个合理的本地的验证集和验证的评价指标是很关键的步骤，能有效的节省很多时间；不同的指标对于同样的预测结果是具有误差敏感的差异性的，有可能会影响评价侧重点。
要关注赛题背景的隐藏条件，赛题中的有些说明可以在后续答辩中以及问题思考中体现出来，如高效性要求、数据异常的识别处理、工序流程的差异性等。如果模型预测效果不好，要反过来思考，是不是赛题背景有哪些方面理解不清晰或是未考虑到。

以上引用自Datawhale 零基础入门数据挖掘-Task1 赛题理解 — By: AI蜗牛车
公众号： AI蜗牛车
知乎： https://www.zhihu.com/people/seu-aigua-niu-che
github: https://github.com/chehongshu

关注