Part.01丨赛题背景
组织方:微软加速器
上海站真实数据来源:百威英博(命题,并提供脱敏的业务数据)
提出三个问题:
1.库存需求预测
2.销售数量预测
3.经销商违规行为检测
数据大致的情况——原始数据中,大致包含了百威全国400多家门店的数据,商品的种类800多个,一整年历史销售数据,精确到每日,数据400多万行。需要预测未来一个月内未来商品的销量。
先进行数据探索,理解一下数据的分布,和大致的特征。后面怎么样去做你的模型。数值分布,统计检验。不可能上来就跑个模型,看效果。
常用方法:数值分布,统计检验,左边直方图,即数据的分布情况,皮尔森相关性检验(Pearson correlation coefficient),就是特征之间的相关度是什么样的。
观察缺失值的情况。因为百威提供的数据质量很高,所以不需要考虑填充缺失值。(下图白色Unnamed:3为缺失值)
方法一:历史数据用折线图等形式画出来,从历史中寻找商品和门店的行为规律。有的有规律性,有的没有。如下图:
所以各个商品之间行为的模式(pattern)不一样。
这样的分析有什么好处呢?通过分析发现,有的商品数据点很稀少。需要分别建立模型,有些不需要建立模型。历史上出现一两次的情况,可以历史平均和预测为零来处理。不用极端数据影响整体的效果。
方法二:正则化。基于统计规则,历史上某些值的平均值,比他两三个标准差偏差还要多的话,会认为异常值,我们会把这些值缩小一下。
方法三:基于模型预测,先构建一个简单的模型,训练后,跑一下模型,观察误差特别大的点,也有可能是离群值或者异常值。这样就可以针对他们做一些处理。
方法四:对数据进行log的预处理。