前言
本文章为天池“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志,旨在对数据挖掘比赛有初步了解,具体目标如下:
一、赛题分析流程
1. 分析问题类型,深入了解数据
梳理赛题的价值、可行性大小,理清数据的逻辑脉络,确定所需解决问题类型,根据数据特点,初步确定将要使用指标,并明确指标理论模型和线上实践是否可行,进一步深入理解原始特征,理解彼此关系。
2. 理清难点和关键点
明确数据可靠或关键的部分,预测哪些数据可以挖掘出更好的特征来拟合模型,对可能出现的数据问题进行预设并提出可行解决方案 。
3. 赛事评价指标理解
明确数据可靠或关键的部分,预测哪些数据可以挖掘出更好的特征来拟合模型,对可能出现的数据问题提出解决方案 。
4. 了解赛题背景的潜在条件
例如高效性,数据异常处理等,均需要贯彻于整个分析过程,同时这些问题也可能是模型模拟效果不好的因素之一。
二、比赛数据
1.比赛数据简介
- 此次比赛数据来源:
本次赛事来自交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时信息已脱敏。(比赛数据除匿名特征外其余性质特征均有介绍,匿名特征,就是未告知数据列所属的性质的特征列,本次零基础赛先使用Test-A)。
- 赛事数据规则:
比赛数据通常分为两组Test-A/Test-B,Test-A比赛数据的周期比较长,用来调节模型,而Test-B是为防止模型过拟合等,重新发布的一组类似数据集用于评估最终模型和排名的(限制提交次数和时间限制较短,通常只有两三天)
- 此次比赛目标:
根据给定数据集,建立模型,估计二手汽车交易价格,降低MAE。
2.比赛数据概况
本次数据均脱敏,形式-label encoding,包括16个变量(如下)+15个匿名特征(v_0~v_14)。
• SaleID - 销售样本ID
• name - 汽车编码
• regDate - 汽车注册时间
• model - 车型编码
• brand - 品牌
• bodyType - 车身类型
• fuelType - 燃油类型
• gearbox - 变速箱
• power - 汽车功率
• kilometer - 汽车行驶公里
• notRepairedDamage - 汽车有尚未修复的损坏
• regionCode - 看车地区编码
• seller - 销售方
• offerType - 报价类型
• creatDate - 广告发布时间
• price - 汽车价格
3. 本次预测评价指标
本次预测评价指标为MAE(平均绝对误差),MAE是回归预测的常见指标,本次价格模型需尽可能降低MAE,使样本预测值极可能贴合给出样本实际值。
- 注:常见评估指标
(1)分类算法
-二类分类算法指标accuracy、ROC-AUC曲线
-二类分类算法指标accuracy、ROC-AUC曲线
(2)回归预测
-平均绝对误差(MAE),均方误差(MSE),平均绝对百分误差(MAPE),均方根误差, R2
三、赛题分析
1.回归问题
本次比赛模型为回归模型,需先进行数据探索性分析(包括特征分析,预测分布等),其次需对数据进行清洗(对缺失值/异常值进行处理等),此外为提高机器学习的性能,需进行特征工程处理,完成以上预处理,可进行建模调参及模型融合。
2.评价指标
本次预测评价指标为MAE(平均绝对误差),MAE是回归预测的常见指标,本次价格模型需尽可能降低MAE,使样本预测值极可能贴合给出样本实际值。
3.所需数据库
xgb、lgb、catboost、 pandas、numpy、matplotlib、seabon、sklearn、keras等