Task1 赛题理解---zpz

Task1 赛题理解学习记录

项目名称:零基础入门数据挖掘 - 二手车交易价格预测

1 赛题背景

本次的赛题名称为:零基础入门数据挖掘之二手车交易价格预测大赛。赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,是一个典型的回归问题。

1.1 内容解读

前言 本人目前在华中科技大学材料学院电子封装专业,作为一名第一次接触并参加数据挖掘类比赛的学生,首先需要对涉及的各项名词进行搜索并进行自己的理解。

1.1.1 回归问题

**回归预测(regression forecasting)**就是把预测的相关性原则作为基础,把影响预测目标的各因素找出来,然后找出这些因素和预测目标之间的函数关系的近似表达,并且用数学的方法找出来。在利用样本数据对其模型估计参数,并且对模型进行误差检验。如果模型确定,就可以用模型对因素的的变化值进行预测

确定对结果有影响的各个变量X(剔除对结果无影响的变量),确定多个变量X与最终结果Y之间的函数近似表达( 样本估计参数),检验模型较为准确后(误差检验),可用该模型(函数)对不同的变量X预测出结果Y值。

2 赛题数据

赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

2.1 内容解读

2.1.1 训练集&测试集

机器学习中经常提到的名词有三个:训练集(train)、验证集(validation)和测试集(test)。
1.训练集
确定模型后,训练集用于训练模型中的参数,注意训练的是普通参数而非超参数

普通参数:每多加入一个数据对模型进行训练,模型中就会受到影响的参数,通过多次迭代不断更新,是一个梯度下降的过程
超参数:是指训练开始之前设置的参数,超参数的选择与训练过程实际上是独立的,训练过程不会影响超参数。但是训练结束后可以根据训练结果考虑超参数是否可优化,可优化的话就调整超参数的值开始下一次训练)

2.验证集(交叉验证集CV)
用训练集对模型训练完毕后,再用验证集对模型测试
3.测试集
虽然验证集没有对模型的参数产生影响,但是我们却根据验证集的测试结果的准确度来调整参数(这里调整超参数),验证集即使得模型在验证集上达到最优。

需要一个完全没有经过训练的测试集来再最后测试模型的准确率。

2.1.2 脱敏

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括:拖库、刷库、撞库。

赛题数据对name、model、brand和regionCode等信息进行脱敏。

  • SaleID 交易ID,唯一编码
  • name 汽车交易名称,已脱敏
  • regDate 汽车注册日期,例如20160101,2016年01月01日
  • model 车型编码,已脱敏
  • brand 汽车品牌,已脱敏
  • bodyType 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
  • fuelType 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
  • gearbox 变速箱:手动:0,自动:1
  • power 发动机功率:范围 [ 0, 600 ]
  • kilometer 汽车已行驶公里,单位万km
  • notRepairedDamage 汽车有尚未修复的损坏:是:0,否:1
  • regionCode 地区编码,已脱敏
  • seller 销售方:个体:0,非个体:1
  • offerType 报价类型:提供:0,请求:1
  • creatDate 汽车上线时间,即开始售卖时间
  • price 二手车交易价格(预测目标)
  • v系列特征 匿名特征,包含v0-14在内15个匿名特征

3 评测标准

评价标准为MAE(Mean Absolute Error)。
若真实值是 y = ( y 1 , y 2 , … … , y n ) y=(y_1,y_2,……,y_n) y=(y1,y2,……,yn),模型的预测值是 y ^ = ( y ^ 1 , y ^ 2 , … … , y ^ n ) \hat y=(\hat y_1,\hat y_2,……,\hat y_n) y^=(y^1,y^2,……,y^n)
M A E = ∑ i = 1 n ∣ y i − y ^ i ∣ n MAE=\frac{\sum_{i=1}^n|y_i - \hat y_i|}{n} MAE=ni=1nyiy^i
MAE越小,说明模型预测得越准确。

4 结果提交

提交的结果需要与题目给出的形式一致,文件名后缀为csv。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值