河北高校数据挖掘比赛之Task1赛题理解

最新推荐文章于 2023-11-23 00:12:54 发布

北辰若星⭐

最新推荐文章于 2023-11-23 00:12:54 发布

阅读量221

点赞数 1

文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_43356993/article/details/115617805

版权

今天是对二手车价格预测比赛的赛题理解，主要内容是了解赛题的数据和目标，清楚评分体系。下载数据并挂载到实验室，熟悉比赛流程。

一、了解学习目标

本次新人赛以二手车市场为背景，要求选手预测二手汽车的交易价格，这是一个典型的回归问题。其中包括数据科学库、通用流程和baseline方案学习三部分。

二、赛题概况

赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

此题为传统的数据挖掘问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。并且此题是一个典型的回归问题，主要应用xgb、lgb、catboost，以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务，并通过EDA来挖掘数据的联系和自我熟悉数据。

三、数据概况

SaleID - 销售样本ID
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,'v_14，'v_15，'v_16，'v_17，'v_18，'v_19，'v_20，'v_21，'v_22，‘v_23’ 【匿名特征，包含v0-23在内24个匿名特征】　
数字全都脱敏处理，都为label encoding形式，即数字形式

四、评测标准

此次比赛因为是典型的回归问题，所以将评价标准定位了为MAE(Mean Absolute Error)。

注：其中在此种评估指标中，MAE越小，说明模型越准确。

在这里插入图片描述
当然这只是这次比赛的预测标准，对于不同模型还有其他的预测标准，例如：

对于分类算法常见的评估指标如下：
（1）对于二类分类器/分类算法，评价指标主要有accuracy， [Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线。
（2）对于多类分类器/分类算法，评价指标主要有accuracy， [宏平均和微平均，F-score]。
对于回归预测类常见的评估指标如下:
平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），平均绝对百分误差（Mean Absolute Percentage Error，MAPE），均方根误差（Root Mean Squared Error）， R2（R-Square）

五、代码示例和结果提交

挂载所需数据
下载所需挂载数据，然后拖到你需要存放的文件夹，像第一天所说的方式进行保存，保存到天池实验室。也可以点击upload按钮来上传自己所需挂载的文件。

保存天池实验室

点击天池

点击刷新状态后点击保存到天池

在这里插入图片描述

代码示例
1.1当然你可以点击文件来查看数据集，但当数据量大的时候就不大适合了，那我们可以使用如下方法来查看数据。

（pandas可以将数据以索引方式展现，使显示更加直观简洁。）

1.2 分类指标评价计算示例

1.3回归指标评价计算示例
结果的提交依旧是需要保存进天池实验室，上面及以前已经详述过，这里就不再提及了。

六、经验总结

赛题的理解很重要，不是只看过一遍就可以，还需要认真的去思索赛题所给的各种信息，并从中提取出关键信息，并在后续建立模型的过程中去反复斟酌，以防发生一些无法预估的错误。信息提取对于赛题理解非常重要，寻找关键数据，协调线上线下的一致性，从而从原始特征中构造满意的特征。
除了信息的提取，还需要有一定的理解分析，比如这题的难点可能在哪里，关键点可能在哪里，哪些地方可以挖掘更好的特征，用什么样得线下验证方式更为稳定，出现了过拟合或者其他问题，估摸可以用什么方法去解决这些问题，哪些数据是可靠的，哪些数据是需要精密的处理的，哪部分数据应该是关键数据。这时是在一个宏观的大体下分析的，有助于摸清整个题的思路脉络，以及后续的分析方向。
当然赛题也会隐藏一些条件，需要我们仔细去寻找和思考。比如高效性要求，比如对于数据异常的识别处理，比如工序流程的差异性，比如模型运行的时间等等，都会对模型的建立有很大的影响。反过来，模型不准确，也需要反思自己哪些隐藏的条件没有考虑到，从而能够进一步优化自己所建立的模型。

注：不同评估指标对于预测模型来说，具有不同的误差敏感性，对于后续的预测都会有影响。所以选择评估指标也是非常重要的事情，不过，这次比赛指定了评估标准，我们就用它来建立模型即可。