Task1 赛题理解学习记录
项目名称:零基础入门数据挖掘 - 二手车交易价格预测
1 赛题背景
本次的赛题名称为:零基础入门数据挖掘之二手车交易价格预测大赛。赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,是一个典型的回归问题。
1.1 内容解读
前言 本人目前在华中科技大学材料学院电子封装专业,作为一名第一次接触并参加数据挖掘类比赛的学生,首先需要对涉及的各项名词进行搜索并进行自己的理解。
1.1.1 回归问题
**回归预测(regression forecasting)**就是把预测的相关性原则作为基础,把影响预测目标的各因素找出来,然后找出这些因素和预测目标之间的函数关系的近似表达,并且用数学的方法找出来。在利用样本数据对其模型估计参数,并且对模型进行误差检验。如果模型确定,就可以用模型对因素的的变化值进行预测
确定对结果有影响的各个变量X(剔除对结果无影响的变量),确定多个变量X与最终结果Y之间的函数近似表达( 样本估计参数),检验模型较为准确后(误差检验),可用该模型(函数)对不同的变量X预测出结果Y值。
2 赛题数据
赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。
2.1 内容解读
2.1.1 训练集&测试集
机器学习中经常提到的名词有三个:训练集(train)、验证集(validation)和测试集(test)。
1.训练集
确定模型后,训练集用于训练模型中的参数,注意训练的是普通参数而非超参数
普通参数:每多加入一个数据对模型进行训练,模型中就会受到影响的参数,通过多次迭代不断更新,是一个梯度下降的过程
超参数:是指训练开始之前设置的参数,超参数的选择与训练过程实际上是独立的,训练过程不会影响超参数。但是训练结束后可以根据训练结果考虑超参数是否可优化,可优化的话就调整超参数的值开始下一次训练)
2.验证集(交叉验证集CV)
用训练集对模型训练完毕后,再用验证集对模型测试
3.测试集
虽然验证集没有对模型的参数产生影响,但是我们却根据验证集的测试结果的准确度来调整参数(这里调整超参数),验证集即使得模型在验证集上达到最优。
需要一个完全没有经过训练的测试集来再最后测试模型的准确率。
2.1.2 脱敏
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括:拖库、刷库、撞库。
赛题数据对name、model、brand和regionCode等信息进行脱敏。
- SaleID 交易ID,唯一编码
- name 汽车交易名称,已脱敏
- regDate 汽车注册日期,例如20160101,2016年01月01日
- model 车型编码,已脱敏
- brand 汽车品牌,已脱敏
- bodyType 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
- fuelType 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
- gearbox 变速箱:手动:0,自动:1
- power 发动机功率:范围 [ 0, 600 ]
- kilometer 汽车已行驶公里,单位万km
- notRepairedDamage 汽车有尚未修复的损坏:是:0,否:1
- regionCode 地区编码,已脱敏
- seller 销售方:个体:0,非个体:1
- offerType 报价类型:提供:0,请求:1
- creatDate 汽车上线时间,即开始售卖时间
- price 二手车交易价格(预测目标)
- v系列特征 匿名特征,包含v0-14在内15个匿名特征
3 评测标准
评价标准为MAE(Mean Absolute Error)。
若真实值是
y
=
(
y
1
,
y
2
,
…
…
,
y
n
)
y=(y_1,y_2,……,y_n)
y=(y1,y2,……,yn),模型的预测值是
y
^
=
(
y
^
1
,
y
^
2
,
…
…
,
y
^
n
)
\hat y=(\hat y_1,\hat y_2,……,\hat y_n)
y^=(y^1,y^2,……,y^n)
M
A
E
=
∑
i
=
1
n
∣
y
i
−
y
^
i
∣
n
MAE=\frac{\sum_{i=1}^n|y_i - \hat y_i|}{n}
MAE=n∑i=1n∣yi−y^i∣
MAE越小,说明模型预测得越准确。
4 结果提交
提交的结果需要与题目给出的形式一致,文件名后缀为csv。