预测不了世界杯比分，就预测百威啤酒销量，送数据竞赛冠军笔记

最新推荐文章于 2022-06-04 20:01:07 发布

小拾1236

最新推荐文章于 2022-06-04 20:01:07 发布

阅读量295

点赞数

copyright版权所有©️

本文链接：https://blog.csdn.net/cpongo10/article/details/98734105

版权

本文介绍了微软加速器与百威英博联合举办的数据竞赛，涉及库存、销售和经销商违规行为预测。通过数据探索、异常值处理、特征工程和模型选择，如GBDT、 Embedding、LSTM等，实现销量预测。文章提到了时间序列模型如SARIMAX和GAM的可解释性优势，以及模型融合如Blending和Stacking在提升预测效果中的作用。

摘要由CSDN通过智能技术生成

640?wx_fmt=png

Part.01丨赛题背景

组织方：微软加速器

上海站真实数据来源：百威英博（命题，并提供脱敏的业务数据）

提出三个问题：

1.库存需求预测

2.销售数量预测

3.经销商违规行为检测

数据大致的情况——原始数据中，大致包含了百威全国400多家门店的数据，商品的种类800多个，一整年历史销售数据，精确到每日，数据400多万行。需要预测未来一个月内未来商品的销量。

Part.02丨探索性数据分析

先进行数据探索，理解一下数据的分布，和大致的特征。后面怎么样去做你的模型。数值分布，统计检验。不可能上来就跑个模型，看效果。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

常用方法：数值分布，统计检验，左边直方图，即数据的分布情况，皮尔森相关性检验（Pearson correlation coefficient)，就是特征之间的相关度是什么样的。

观察缺失值的情况。因为百威提供的数据质量很高，所以不需要考虑填充缺失值。（下图白色Unnamed:3为缺失值）

640?wx_fmt=png

预处理方法

方法一：历史数据用折线图等形式画出来，从历史中寻找商品和门店的行为规律。有的有规律性，有的没有。如下图：

640?wx_fmt=jpeg

所以各个商品之间行为的模式（pattern）不一样。

这样的分析有什么好处呢？通过分析发现，有的商品数据点很稀少。需要分别建立模型，有些不需要建立模型。历史上出现一两次的情况，可以历史平均和预测为零来处理。不用极端数据影响整体的效果。

方法二：正则化。基于统计规则，历史上某些值的平均值，比他两三个标准差偏差还要多的话，会认为异常值，我们会把这些值缩小一下。

方法三：基于模型预测，先构建一个简单的模型，训练后，跑一下模型，观察误差特别大的点，也有可能是离群值或者异常值。这样就可以针对他们做一些处理。

方法四：对数据进行log的预处理。

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。