【二手车交易价格预测】赛题理解

一、赛题背景

本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。

赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。通过这道赛题来引导大家走进AI数据竞赛的世界,主要针对于于竞赛新人进行自我练习、自我提高。

应搞清楚三个问题:

(1)这个赛题是什么业务问题:

  • 本次大赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。赛题以二手车市场为背景,预测二手汽车的交易价格。

(2)具体的业务流程是什么:

  • 所谓的二手车价评估价是政府一方为防止交易双方谎,报交易价格致使税费损失,通过交易市场对每一辆车进行的一个估价。

  • 车主应事先了解二手车的价格,在置换前通过公平价估值参考一些评估价格和同档次二手车市场报价,既不能过低估计自己车辆的价格,更不能过高估计。通过价格预测,可以避免在置换的时候被蒙。

(3)最终的目标是什么:

  • 最终目标预测出二手车的交易价格

二、赛题数据

赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

(1)每种数据集之间的关系;

(2)数据中缺失值情况;

(3)类别特征和数值特征;这些可以作为我们关注基本点。

在这里插入图片描述
在这里插入图片描述

三、评价指标

评价标准为MAE(Mean Absolute Error)

在这里插入图片描述
MAE越小,说明模型预测得越准确。

四、赛题分析

  1. 此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
  2. 此题是一个典型的回归问题。
  3. 主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
  4. 通过EDA来挖掘数据的联系和自我熟悉数据。
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值