“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志


前言

本文章为天池“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志,旨在对数据挖掘比赛有初步了解,具体目标如下:

  1. 理论:理解数据分析目标,评分体系,学习赛题分析
  2. 实践:学习在比赛系统提交结果
    比赛地址:link
    学习资料地址: link

一、赛题分析流程

1. 分析问题类型,深入了解数据

梳理赛题的价值、可行性大小,理清数据的逻辑脉络,确定所需解决问题类型,根据数据特点,初步确定将要使用指标,并明确指标理论模型和线上实践是否可行,进一步深入理解原始特征,理解彼此关系。

2. 理清难点和关键点

明确数据可靠或关键的部分,预测哪些数据可以挖掘出更好的特征来拟合模型,对可能出现的数据问题进行预设并提出可行解决方案 。

3. 赛事评价指标理解

明确数据可靠或关键的部分,预测哪些数据可以挖掘出更好的特征来拟合模型,对可能出现的数据问题提出解决方案 。

4. 了解赛题背景的潜在条件

例如高效性,数据异常处理等,均需要贯彻于整个分析过程,同时这些问题也可能是模型模拟效果不好的因素之一。

二、比赛数据

1.比赛数据简介

- 此次比赛数据来源:

本次赛事来自交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时信息已脱敏。(比赛数据除匿名特征外其余性质特征均有介绍,匿名特征,就是未告知数据列所属的性质的特征列,本次零基础赛先使用Test-A)。

- 赛事数据规则:

比赛数据通常分为两组Test-A/Test-B,Test-A比赛数据的周期比较长,用来调节模型,而Test-B是为防止模型过拟合等,重新发布的一组类似数据集用于评估最终模型和排名的(限制提交次数和时间限制较短,通常只有两三天)

- 此次比赛目标:

根据给定数据集,建立模型,估计二手汽车交易价格,降低MAE。

2.比赛数据概况

本次数据均脱敏,形式-label encoding,包括16个变量(如下)+15个匿名特征(v_0~v_14)。
• SaleID - 销售样本ID
• name - 汽车编码
• regDate - 汽车注册时间
• model - 车型编码
• brand - 品牌
• bodyType - 车身类型
• fuelType - 燃油类型
• gearbox - 变速箱
• power - 汽车功率
• kilometer - 汽车行驶公里
• notRepairedDamage - 汽车有尚未修复的损坏
• regionCode - 看车地区编码
• seller - 销售方
• offerType - 报价类型
• creatDate - 广告发布时间
• price - 汽车价格

3. 本次预测评价指标

本次预测评价指标为MAE(平均绝对误差),MAE是回归预测的常见指标,本次价格模型需尽可能降低MAE,使样本预测值极可能贴合给出样本实际值。

- 注:常见评估指标
      (1)分类算法
          -二类分类算法指标accuracy、ROC-AUC曲线
          -二类分类算法指标accuracy、ROC-AUC曲线
      (2)回归预测
          -平均绝对误差(MAE),均方误差(MSE),平均绝对百分误差(MAPE),均方根误差, R2

三、赛题分析

1.回归问题

本次比赛模型为回归模型,需先进行数据探索性分析(包括特征分析,预测分布等),其次需对数据进行清洗(对缺失值/异常值进行处理等),此外为提高机器学习的性能,需进行特征工程处理,完成以上预处理,可进行建模调参及模型融合。

2.评价指标

本次预测评价指标为MAE(平均绝对误差),MAE是回归预测的常见指标,本次价格模型需尽可能降低MAE,使样本预测值极可能贴合给出样本实际值。

3.所需数据库

xgb、lgb、catboost、 pandas、numpy、matplotlib、seabon、sklearn、keras等

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值