基于ARIMA模型拼多多榴莲热销季销量预测
- 研究背景以及意义:
榴莲是家喻户晓但是有有点特别的热带水果,其特别主要是因为它的价格昂贵,但是中国却不缺喜欢榴莲的人。中国人对榴莲的喜爱,导致需求量很大,又榴莲树对生长环境要求很高,国内多数榴莲需要进口获取,导致了榴莲的高需求、高价格。对榴莲的争议越来越多,再加上最近炒的沸沸扬扬的某网红垄断榴莲抬高市场价格的新闻,让我关注到拼多多醒目的宣传“新鲜泰国进口金枕榴莲万人拼团”,经济实惠,清一色的好评十万加的销量。但是结合榴莲真实的高生产成本不禁让人怀疑其真实性和品质问题。基于上述原因利用时间序列所学的知识,使用拼多多某好评最高的商店6月7月份(榴莲热销季)的销量数据进行建模预测。
- 问题分析
1.模型归类:
该问题属于时间序列分析问题,可以运用时间序列分析对其进行建模。
- 建模思想:
2.1时间序列的获取与预处理:
对于得到的时间序列数据,首先应该检查数据质量,例如是否有缺失,异常值的存在。确保数据无误后需要进行稳定性检验和白噪声检验。能够适用ARMA模型进行分析预测的时间序列必须满足的条件是平稳非白噪声序列。因此对数据的平稳性进行检验是时间序列分析的重要步骤。
2.2模型定阶:
确定模型的类型并确定模型的参数
2.3建模预测:
使用模型进行建模并进行相关预测。
2.4模型的验证:
模型的验证主要是验证模型的拟合效果,之后对模型进行相关优化与应用
三、数据描述:
数据来源于多多情报网爬虫获取的招达水果生鲜旗舰店2022年6-7月份榴莲销量日数据表,其中建模所需要的字段为:日期--date、purchase_amt——销量。
注意:该数据来源于网络统计,在进行建模分析前需要运用数据预处理知识对数据表进行数据清洗、简化及处理。
四、模型的建立及预测过程
1.时间序列的获取与预处理
1.1导入数据并查看时序图
1.2 平稳性检验
针对问题1.2:时间序列与平稳性
在数学上,随机过程被定义为一族时间随机变量,即{x(t),t∈T},其中T表示时间t的变动范围。当T={0,±1,±2,…}时,此类随机过程x(t)是离散时间t的随机函数,称为时间序列。时间序列的构成要素有:
长期趋势(T)是在较长时期内受某种根本性因素作用而形成的总的变动趋势
季节变动(S)是在一年内随着季节的变化而发生的有规律的周期性变动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
循环变动(C)是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。
不规则变动(I)是时间序列中除去趋势、季节变动和周期波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。只含有随机波动的序列也称为平稳序列。
除非你的时间序列是平稳的,否则不能建立一个时间序列模型。在百度词条中是这样粗略的讲的:平稳时间序列粗略地讲,一个时间序列,如果均值没有系统的变化(无趋势)、方差没有系统变化,且严格消除了周期性变化,就称之是平稳的。
平稳性的判断标准
判断一个序列是不是平稳序列有三个评判标准:
均值:
是与时间t 无关的常数。下图(左)满足平稳序列的条件,下图(右)很明显具有时间依赖。
方差:
是与时间t 无关的常数。这个特性叫做方差齐性。下图显示了什么是方差对齐,什么不是方差对齐。(注意右手边图中的不同分布)
协方差:
只与时期间隔k有关,与时间t 无关的常数。如下图(右),可以注意到随着时间的增加,曲线变得越来越近。因此红色序列的协方差并不是恒定的。
平稳性分类
时间序列的平稳性,和其它随机过程一样,分为严平稳和宽平稳。在数学中,平稳随机过程(Stationary random process)或者严平稳随机过程(Strictly-sense stationary random process),又称狭义平稳过程,是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程:即随机过程的统计特性不随时间的推移而变化。这样,数学期望和方差这些参数也不随时间和位置变化。平稳在理论上有严平稳和宽平稳两种,在实际应用上宽平稳使用较多。宽平稳的数学定义为:对于时间序列 yt,若对任意的t,k,m,满足: