2021-04-12

最新推荐文章于 2023-05-04 11:45:49 发布

耶耶也

最新推荐文章于 2023-05-04 11:45:49 发布

阅读量110

点赞数 1

分类专栏：打卡笔记文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42818701/article/details/115642540

版权

打卡笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Datawhale 河北高校数据挖掘比赛-Task1 赛题理解

一、赛题理解

赛题：零基础入门数据挖掘 - 二手车交易价格预测

1.1 了解赛题

- 赛题概况
- 数据概况
- 预测指标
- 分析赛题

1.1.1 赛题概况

比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。

赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含39列变量信息，其中24列为匿名变量。为了保证比赛的公平性，将会从中抽取25万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

1.1.2 数据概况

一般而言，对于数据在比赛界面都有对应的数据概况介绍（匿名特征除外），说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征，就是未告知数据列所属的性质的特征列。

train.csv

Field	Description
SaleID	交易ID，唯一编码
name	汽车交易名称，已脱敏
regDate	汽车注册日期，例如20160101，2016年01月01日
model	车型编码，已脱敏
brand	汽车品牌，已脱敏
bodyType	车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
fuelType	燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
gearbox	变速箱：手动：0，自动：1
power	发动机功率：范围 [ 0, 600 ]
kilometer	汽车已行驶公里，单位万km
notRepairedDamage	汽车有尚未修复的损坏：是：0，否：1
regionCode	地区编码，已脱敏
seller	销售方：个体：0，非个体：1
offerType	报价类型：提供：0，请求：1
creatDate	汽车上线时间，即开始售卖时间
price	二手车交易价格（预测目标）
v系列特征	匿名特征，包含v0-23在内24个匿名特征

1.1.3 流程安排

模型选取 (用于解决回归问题的模型)
数据清洗（无效数据：“-”，不在字段范围内）pandas,numpy
模型训练
模型预测
结果分析改进

1.1.4 预测指标

本赛题的评价标准为MAE(Mean Absolute Error):

其中$y{i}$代表第$i$个样本的真实值，其中$\hat{y}{i}$代表第$i$个样本的预测值。

一般问题评价指标说明:

什么是评估指标：

评估指标即是我们对于一个模型效果的数值型量化。（有点类似与对于一个商品评价打分，而这是针对于模型效果和理想效果之间的一个打分）

一般来说分类和回归问题的评价指标有如下一些形式：

分类算法常见的评估指标如下：

对于二类分类器/分类算法，评价指标主要有accuracy， [Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线。
对于多类分类器/分类算法，评价指标主要有accuracy， [宏平均和微平均，F-score]。

对于回归预测类常见的评估指标如下:

平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），平均绝对百分误差（Mean Absolute Percentage Error，MAPE），均方根误差（Root Mean Squared Error）， R2（R-Square）

平均绝对误差 平均绝对误差（Mean Absolute Error，MAE）:平均绝对误差，其能更好地反映预测值与真实值误差的实际情况，其计算公式如下：

enter image description here

MAE越小，说明模型预测的越准确。

耶耶也

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-04-12

Datawhale 河北高校数据挖掘比赛-Task1 赛题理解一、赛题理解赛题：零基础入门数据挖掘 - 二手车交易价格预测1.1 了解赛题- 赛题概况- 数据概况- 预测指标- 分析赛题1.1.1 赛题概况比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含39列变量信息，其中24列为匿名变量。为了保证比赛的公平性，将会从中抽取25万条作
复制链接

扫一扫