作者简介
June,携程数据分析经理,对数仓搭建,数据治理,数据分析等方面有较浓厚的兴趣。
一、 前言
时间序列分析是统计学科的一个重要分支。它主要是通过研究随着时间的推移事物发展变化过程中的规律,来进行事物未来发展情况的预测。在我们的日常生活中,股票的价格走势,奶茶店每天的销售额,一年的降雨量分布,河水四季的涨落情况等都属于时间序列。时间序列的分析深入诸多行业。
时间序列的分类:
图1
根据指标的平稳性,分为平稳时间序列和非平稳时间序列;
根据指标的性质分类,分为总量指标时间序列,相对指标和平均指标时间序列;
根据指标的时间属性分类,分为时期指标时间序列,时点指标时间序列;
时期指标时间序列是可以相加的,并且相加是有意义的,比如每天的订单量,一个月的订单量直接将这个月对应的每天的订单量相加即可。时点指标时间序列是不可以相加的,反映的是某一时间点达到的水平,比如每天库存量,库存量相加是没有统计意义的,每月总库存量不等于每天库存量加和。
对于互联网公司而言,业务量是公司经营关注的重要指标之一。实际情况的复杂性给业务量的分析预测带来了许多挑战:
具有业务特征的周期性影响
节假日等特定时序节点的变异
地域差异,空间的相互作用
受到库存、实际市场容量的影响
其他外生变量,不可控自然或社会因素
对于时间序列的分析,例如订单量,话务量,库存管理等,实现的方式有ANN,RNN,LR,ARIMA,Prophet等,这里我们重点关注ARIMA分析方法。
二、 时间序列分析实践
2.1 ARIMA模型简介
ARMA模型的全称是自回归移动平均模型,可以说是目前最常用的拟合平稳序列的模型。
ARMA模型由两部分组成:
p阶自回归模型AR(p)
当时,自回归模型又称为中心化AR(p)模型。非中心化的AR(p)序列也可以转化(通过平移)为中心化的AR(p)模型。
AR模型将某时刻t的值用过去若干时刻t-1到t-p的值通过线性组合以及噪声来表示。
q阶移动平均模型MA(q)
当时,模型MA(q)称为中心化MA(q)模型,对于非中心化的MA(q)模型只要做简单的位移就可以转化为中心化的MA(q)模型。
MA模型是通过历史点的噪声线性组合来表示当前时刻的值。
ARMA模型其实就是AR(P)和MA(q)的组合:
同样的,当时该模型称为中心化的ARMA(p,q)模型。他结合了两个模型的特点,AR模型处理当前数据与后期数据之间的关系,MA则处理随机变动的影响。
对于平稳时间序列可以采用ARMA模型直接进行拟合,但是实际场景中,我们的时间序列都是有趋势的,即一般时序为非平稳的,所以需要做平稳处理,其中最常用的是差分处