CCF-乘用车细分市场销量预测竞赛

该博客介绍了一个基于历史销量和搜索量数据的乘用车销量预测任务,使用监督回归模型进行预测。通过特征工程构建了173个特征,并通过lightGBM筛选出107个关键特征。模型训练采用整体预测和分月预测两种方式,验证集上的NRMSE平均分数达到0.814。完整代码可在GitHub找到。
摘要由CSDN通过智能技术生成

乘用车细分市场销量预测

需求:根据给出的60款车型在22个细分市场(省份)的销量连续24个月(从2016年1月至2018年12月)的销量数据,建立销量预测模型;基于该模型预测同一款车型和相同细分市场在接下来一个季度连续4个月份的销量;除销量数据外,还提供同时期的用户互联网行为统计数据,包括:各细分市场每个车型的互联网搜索量数据等。

需求理解

这是一个监督回归任务:

  • 监督 :给出过去2年(2016.1-2017.12)各车型、省份、车身的销量和搜索量数据,目标是预测未来4个月(2018.1~2018.4)的销量。
  • 回归 :销量是一个连续变量,范围是1-15317。

数据说明

数据集包含细分市场、时间和销量搜索量几个方面的信息。

pre_data\train_sales_data.csv :初赛60车型训练数据。
data\train_sales_data.csv: 复赛82车型训练数据。
data\evaluation_public.csv:测试集数据。
data\train_search_data.csv:各细分市场的搜索量数据。

评价指标

采用归一化均方根误差的均值。首先单独计算每个车型在每个细分市场(省份)的NRMSE,再计算所有NRMSE的均值。

Score为最终评价指标,值为0-1之间,越接近1模型越准确。计算方式为:

鉴于此,本次学习分享采用第过去4个月(第21-24月)的数据作为验证集进行评估,用整体预测和分月预测两种方式进行对比。

整体预测结果:初赛(60款车型)验证达分数为0.714,复赛(82款车型)验证达分数为0.713。
分月预测结果:初赛(60款车型)验证达分数达0.814,复赛(82款车型)验证达分数达0.806。

数据分析

离散数据
月份:2016.01-2017.12,预测2018.1-2018.4
时间:1-28个月
省份:22个
车型:初赛60/复赛82
车身:4种
连续数据
销量:1-15317
搜索量:25-1552536

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值