Task1 赛题理解---zpz

Zpz&Trq

已于 2022-10-10 18:07:26 修改

阅读量199

点赞数

分类专栏：数据分析文章标签：数据挖掘

于 2021-04-13 23:43:08 首次发布

本文链接：https://blog.csdn.net/m0_57142809/article/details/115646992

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Task1 赛题理解学习记录

项目名称：零基础入门数据挖掘 - 二手车交易价格预测

1 赛题背景

本次的赛题名称为：零基础入门数据挖掘之二手车交易价格预测大赛。赛题以二手车市场为背景，要求选手预测二手汽车的交易价格，是一个典型的回归问题。

1.1 内容解读

前言本人目前在华中科技大学材料学院电子封装专业，作为一名第一次接触并参加数据挖掘类比赛的学生，首先需要对涉及的各项名词进行搜索并进行自己的理解。

1.1.1 回归问题

**回归预测（regression forecasting）**就是把预测的相关性原则作为基础，把影响预测目标的各因素找出来，然后找出这些因素和预测目标之间的函数关系的近似表达，并且用数学的方法找出来。在利用样本数据对其模型估计参数，并且对模型进行误差检验。如果模型确定，就可以用模型对因素的的变化值进行预测

确定对结果有影响的各个变量X（剔除对结果无影响的变量），确定多个变量X与最终结果Y之间的函数近似表达（样本估计参数），检验模型较为准确后（误差检验），可用该模型（函数）对不同的变量X预测出结果Y值。

2 赛题数据

赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

2.1 内容解读

2.1.1 训练集&测试集

机器学习中经常提到的名词有三个：训练集（train)、验证集（validation）和测试集（test）。
1.训练集
确定模型后，训练集用于训练模型中的参数，注意训练的是普通参数而非超参数

普通参数：每多加入一个数据对模型进行训练，模型中就会受到影响的参数，通过多次迭代不断更新，是一个梯度下降的过程
超参数：是指训练开始之前设置的参数，超参数的选择与训练过程实际上是独立的，训练过程不会影响超参数。但是训练结束后可以根据训练结果考虑超参数是否可优化，可优化的话就调整超参数的值开始下一次训练）

2.验证集（交叉验证集CV）
用训练集对模型训练完毕后，再用验证集对模型测试
3.测试集
虽然验证集没有对模型的参数产生影响，但是我们却根据验证集的测试结果的准确度来调整参数（这里调整超参数），验证集即使得模型在验证集上达到最优。

需要一个完全没有经过训练的测试集来再最后测试模型的准确率。

2.1.2 脱敏

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据安全技术之一，数据库安全技术主要包括：数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括：拖库、刷库、撞库。

赛题数据对name、model、brand和regionCode等信息进行脱敏。

SaleID 交易ID，唯一编码
name 汽车交易名称，已脱敏
regDate 汽车注册日期，例如20160101，2016年01月01日
model 车型编码，已脱敏
brand 汽车品牌，已脱敏
bodyType 车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
fuelType 燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
gearbox 变速箱：手动：0，自动：1
power 发动机功率：范围 [ 0, 600 ]
kilometer 汽车已行驶公里，单位万km
notRepairedDamage 汽车有尚未修复的损坏：是：0，否：1
regionCode 地区编码，已脱敏
seller 销售方：个体：0，非个体：1
offerType 报价类型：提供：0，请求：1
creatDate 汽车上线时间，即开始售卖时间
price 二手车交易价格（预测目标）
v系列特征匿名特征，包含v0-14在内15个匿名特征

3 评测标准

评价标准为MAE(Mean Absolute Error)。
若真实值是 $y=(y_1,y_2,……,y_n)$ ，模型的预测值是 $\hat y=(\hat y_1,\hat y_2,……,\hat y_n)$
$MAE=\frac{\sum_{i=1}^n|y_i - \hat y_i|}{n}$
MAE越小，说明模型预测得越准确。

4 结果提交

提交的结果需要与题目给出的形式一致，文件名后缀为csv。

Zpz&Trq

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Task1 赛题理解---zpz

Task1 赛题理解学习记录项目名称：零基础入门数据挖掘 - 二手车交易价格预测1 赛题背景本次的赛题名称为：零基础入门数据挖掘之二手车交易价格预测大赛。赛题以二手车市场为背景，要求选手预测二手汽车的交易价格，是一个典型的回归问题。1.1 内容解读前言本人目前在华中科技大学材料学院电子封装专业，作为一名第一次接触并参加数据挖掘类比赛的学生，首先需要对涉及的各项名词进行搜索并进行自己的理解。1.1.1 回归问题**回归预测（regression forecasting）**就是把预测的相关性
复制链接

扫一扫