预测不了世界杯比分,就预测百威啤酒销量,送数据竞赛冠军笔记

本文介绍了微软加速器与百威英博联合举办的数据竞赛,涉及库存、销售和经销商违规行为预测。通过数据探索、异常值处理、特征工程和模型选择,如GBDT、 Embedding、LSTM等,实现销量预测。文章提到了时间序列模型如SARIMAX和GAM的可解释性优势,以及模型融合如Blending和Stacking在提升预测效果中的作用。
摘要由CSDN通过智能技术生成

640?wx_fmt=png



Part.01丨赛题背景


组织方:微软加速器

上海站真实数据来源:百威英博(命题,并提供脱敏的业务数据

提出三个问题:

1.库存需求预测

2.销售数量预测

3.经销商违规行为检测


数据大致的情况——原始数据中,大致包含了百威全国400多家门店的数据,商品的种类800多个,一整年历史销售数据,精确到每日,数据400多万行。需要预测未来一个月内未来商品的销量。



Part.02丨探索性数据分析


先进行数据探索,理解一下数据的分布,和大致的特征。后面怎么样去做你的模型。数值分布,统计检验。不可能上来就跑个模型,看效果。

640?wx_fmt=png

640?wx_fmt=png


640?wx_fmt=png


常用方法:数值分布,统计检验,左边直方图,即数据的分布情况,皮尔森相关性检验(Pearson correlation coefficient),就是特征之间的相关度是什么样的。

观察缺失值的情况。因为百威提供的数据质量很高,所以不需要考虑填充缺失值。(下图白色Unnamed:3为缺失值)

640?wx_fmt=png



预处理方法

方法一:历史数据用折线图等形式画出来,从历史中寻找商品和门店的行为规律。有的有规律性,有的没有。如下图:


640?wx_fmt=jpeg

所以各个商品之间行为的模式(pattern)不一样。


这样的分析有什么好处呢?通过分析发现,有的商品数据点很稀少。需要分别建立模型,有些不需要建立模型。历史上出现一两次的情况,可以历史平均和预测为零来处理。不用极端数据影响整体的效果。


方法二:正则化。基于统计规则,历史上某些值的平均值,比他两三个标准差偏差还要多的话,会认为异常值,我们会把这些值缩小一下。


方法三:基于模型预测,先构建一个简单的模型,训练后,跑一下模型,观察误差特别大的点,也有可能是离群值或者异常值。这样就可以针对他们做一些处理。


方法四:对数据进行log的预处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值