Kaggle Predict Future Sales 竞赛报告
jiantang2000@163.com 2020-07-31
摘要
Kaggle 上的Predict Future Sales竞赛提供了俄罗斯1C company 近3年来的销售数据,其要求是使用这些数据进行建模,并预测接下来一个月里的每个商店的每种商品的销售量。这篇报告介绍了如何参加这个比赛,给出了一个如何使用R语言进行数据清洗,特征工程抽取,模型构建的全过程。截止到2020/7/31,模型在竞赛中提交了15次,取得的最终分数是0.899946,整体排名11%。
竞赛介绍
参加这个比赛是几乎无门槛的,我们可以直接访问竞赛的官网地址【1】,注册一个kaggle账号然后参与近来。
截止到2020/7/31,竞赛参与 人数 8600+,总提交次数7.4W+,本人单人排名top11%.
竞赛提供的数据集为6个.csv文件,大小为近100M,分别包括了指定的训练集,指定的测试集,一个标准提交样本,商店信息,商品信息,商品分类信息。
- 训练集中包括精确到日的时间,月份编号,商店ID,商品ID,商品价格,商品当日销售量。
- 测试集中包括定位ID,商店ID,商品ID。
- 标准提交样本中包括定位ID,未来一个月的预测销售量。
- 商店信息中包括商店ID,商店名称(俄语)。
- 商品信息中包括商品名(俄语),商品ID,商品分类ID。
- 商品分类信息中包括商品分类编号,商品分类ID。
数据处理
缺失值处理
首先进行缺失值检测。缺失值处理的策略有很多:
直接删除(合适本场景)