“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志

最新推荐文章于 2024-04-06 00:31:25 发布

SummerT1996

最新推荐文章于 2024-04-06 00:31:25 发布

阅读量215

点赞数 1

文章标签：机器学习数据分析大数据

本文链接：https://blog.csdn.net/SummerT1996/article/details/115655687

版权

“二手车交易价格预测”学习赛的Task01-学习日志

前言
一、赛题分析流程
二、比赛数据
三、赛题分析

前言

本文章为天池“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志,旨在对数据挖掘比赛有初步了解，具体目标如下：

理论：理解数据分析目标，评分体系，学习赛题分析
实践：学习在比赛系统提交结果
比赛地址：link
学习资料地址： link

一、赛题分析流程

1. 分析问题类型，深入了解数据

梳理赛题的价值、可行性大小，理清数据的逻辑脉络，确定所需解决问题类型，根据数据特点，初步确定将要使用指标，并明确指标理论模型和线上实践是否可行，进一步深入理解原始特征，理解彼此关系。

2. 理清难点和关键点

明确数据可靠或关键的部分，预测哪些数据可以挖掘出更好的特征来拟合模型，对可能出现的数据问题进行预设并提出可行解决方案。

3. 赛事评价指标理解

明确数据可靠或关键的部分，预测哪些数据可以挖掘出更好的特征来拟合模型，对可能出现的数据问题提出解决方案。

4. 了解赛题背景的潜在条件

例如高效性，数据异常处理等，均需要贯彻于整个分析过程，同时这些问题也可能是模型模拟效果不好的因素之一。

二、比赛数据

1.比赛数据简介

- 此次比赛数据来源：

本次赛事来自交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时信息已脱敏。（比赛数据除匿名特征外其余性质特征均有介绍，匿名特征，就是未告知数据列所属的性质的特征列，本次零基础赛先使用Test-A）。

- 赛事数据规则：

比赛数据通常分为两组Test-A/Test-B，Test-A比赛数据的周期比较长，用来调节模型，而Test-B是为防止模型过拟合等，重新发布的一组类似数据集用于评估最终模型和排名的（限制提交次数和时间限制较短，通常只有两三天）

- 此次比赛目标：

根据给定数据集，建立模型，估计二手汽车交易价格，降低MAE。

2.比赛数据概况

本次数据均脱敏，形式-label encoding，包括16个变量（如下）+15个匿名特征（v_0~v_14）。
• SaleID - 销售样本ID
• name - 汽车编码
• regDate - 汽车注册时间
• model - 车型编码
• brand - 品牌
• bodyType - 车身类型
• fuelType - 燃油类型
• gearbox - 变速箱
• power - 汽车功率
• kilometer - 汽车行驶公里
• notRepairedDamage - 汽车有尚未修复的损坏
• regionCode - 看车地区编码
• seller - 销售方
• offerType - 报价类型
• creatDate - 广告发布时间
• price - 汽车价格

3. 本次预测评价指标

本次预测评价指标为MAE（平均绝对误差），MAE是回归预测的常见指标，本次价格模型需尽可能降低MAE，使样本预测值极可能贴合给出样本实际值。

- 注：常见评估指标
      (1)分类算法
          -二类分类算法指标accuracy、ROC-AUC曲线
          -二类分类算法指标accuracy、ROC-AUC曲线
      (2)回归预测
          -平均绝对误差（MAE），均方误差（MSE），平均绝对百分误差（MAPE），均方根误差， R2

三、赛题分析

1.回归问题

本次比赛模型为回归模型，需先进行数据探索性分析（包括特征分析，预测分布等），其次需对数据进行清洗（对缺失值/异常值进行处理等），此外为提高机器学习的性能，需进行特征工程处理，完成以上预处理，可进行建模调参及模型融合。

2.评价指标

本次预测评价指标为MAE（平均绝对误差），MAE是回归预测的常见指标，本次价格模型需尽可能降低MAE，使样本预测值极可能贴合给出样本实际值。

3.所需数据库

xgb、lgb、catboost、 pandas、numpy、matplotlib、seabon、sklearn、keras等

SummerT1996

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志

“二手车交易价格预测”学习赛的Task01-学习日志前言一、赛题分析流程二、比赛数据1.比赛数据简介2.比赛数据概况3. 本次预测评价指标三、赛题分析1.回归问题2.评价指标3.所需数据库前言本文章为天池“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志,旨在对数据挖掘比赛有初步了解，具体目标如下：理论：理解数据分析目标，评分体系，学习赛题分析实践：学习在比赛系统提交结果比赛地址：link学习资料地址： link一、赛题分析流程1. 分析问题类型，深入了解数
复制链接

扫一扫