时间序列相关算法与分析步骤

首先,从时间的角度可以把一个序列基本分为3类:

1.纯随机序列(白噪声序列),这时候可以停止分析,因为就像预测下一次硬币哪一面朝上一样毫无规律。

2.平稳非白噪声序列,它们的均值和方差是常数,对于这类序列,有成熟的模型来拟合这个序列在未来的发展状况,如AR,MA,ARMA等(具体模型算法及实现在后面)

3.非平稳序列,一般做法是把他们转化为平稳的序列,在按照平稳序列的算法进行拟合。如果经过差分后平稳,则应使用ARIMA模型进行拟合。

注:本文模型采用的数据为某餐厅一个多月内的销量数据,包含两个特征:时间和销量

Q1:序列的平稳性用什么来衡量呢?

方法1:

根据时序图和自相关图的特征做出主观的判断,如下图: 
时序图: 
这里写图片描述
自相关图: 
这里写图片描述
从上图可以基本看出,自相关系数的绝对值长期都保持了较大的值,所以可以判断上述时间序列存在自相关性。

平稳的序列自相关图和偏自相关图不是拖尾就是截尾。

截尾就是在某阶之后,系数都为 0 。 
拖尾就是有一个衰减的趋势,但是不都为 0 。

从自相关图来看,呈现三角对称形式,不存在截尾或拖尾,属于单调序列的典型表现形式,原始数据属于不平稳序列。

注:

  • 如果自相关是拖尾,偏相关截尾,则用 AR 算法

  • 如果自相关截尾,偏相关拖尾,则用 MA 算法

  • 如果自相关和偏相关都是拖尾,则用 ARMA 算法, ARIMA 是 ARMA 算法的扩展版,用法类似 。

相关系数的计算方法: 
这里写图片描述
VAR表示方差

方法2:

根据单位根检验

如果存在单位根,则此序列为随机非平稳序列

Q2:平稳序列应该怎么分析呢?

目前最常用的拟合平稳序列的模型为ARMA(Autoregressive moving average)模型,全称是自回归移动平均模型,他又可以分为AR模型,MA模型和ARMA模型三大类。

1.自回归AR(p)模型

这里写图片描述
自回归模型描述的是当前值与历史值之间的关系。

2.移动平均MA(q)模型

这里写图片描述
移动平均模型描述的是自回归部分的误差累计。

3.ARMA(p,q)模型

ARMA(p,q)模型中包含了p个自回归项和q个移动平均项,ARMA(p,q)模型可以表示为: 
这里写图片描述

当q=0时,是AR(p)模型 
当p=0时,是MA(q)模型

一般分析步骤: 
这里写图片描述

Q3:非平稳序列怎么分析呢?

从上面的模型中可以看出,如果是非平稳序列,我们需要先把它转为平稳序列之后再进行分析。

一般我们使用ARIMA(Autoregressive Integrated Moving Average model)进行分析

ARIMA(p,d,q)中,AR是”自回归”,p为自回归项数;MA为”滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)

“差分”一词虽未出现在ARIMA的英文名称中,却是关键步骤。

Q4:举个栗子看下呗!

读取数据

 
  1. #-*- coding: utf-8 -*-

  2. #arima时序模型

  3.  
  4. import pandas as pd

  5.  
  6. #参数初始化

  7. discfile = '../data/arima_data.xls'

  8. forecastnum = 5

  9.  
  10. #读取数据,指定日期列为指标,Pandas自动将“日期”列识别为Datetime格式

  11. data = pd.read_excel(discfile, index_col = u'日期')

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

自相关检测

 
  1.  
  2. #时序图

  3. import matplotlib.pyplot as plt

  4. plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签

  5. plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

  6. data.plot()

  7. plt.show()

  8.  
  9. #自相关图

  10. from statsmodels.graphics.tsaplots import plot_acf

  11. plot_acf(data).show()

  12.  
  13. #平稳性检测

  14. from statsmodels.tsa.stattools import adfuller as ADF

  15. print(u'原始序列的ADF检验结果为:', ADF(data[u'销量']))

  16. #返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

自相关图 
这里写图片描述
可以看出自相关系数的绝对值长期都保持很大,多以基本判断存在自相关性。

ADF检测结果p值显著大于0.05(p=0.9983),最终判断为非平稳序列

一阶差分后继续检测

 
  1. #差分后的结果

  2. D_data = data.diff().dropna()

  3. D_data.columns = [u'销量差分']

  4. D_data.plot() #时序图

  5. plt.show()

  6. plot_acf(D_data).show() #自相关图

  7. from statsmodels.graphics.tsaplots import plot_pacf

  8. plot_pacf(D_data).show() #偏自相关图

  9. print(u'差分序列的ADF检验结果为:', ADF(D_data[u'销量差分'])) #平稳性检测

  10.  
  11. #白噪声检验

  12. from statsmodels.stats.diagnostic import acorr_ljungbox

  13. print(u'差分序列的白噪声检验结果为:', acorr_ljungbox(D_data, lags=1)) #返回统计量和p值

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

这里写图片描述
上图是差分后的销量结果

这里写图片描述
自相关图显示出1阶截尾的性质 
这里写图片描述
偏自相关图显示出1阶拖尾的性质

从ADF的结果(p=0.0226)和自相关图以及偏自相关图中可以看出一阶差分后的序列是平稳的非白噪声序列。

给ARIMA模型定阶 
从一阶差分后的序列是平稳的非白噪声序列可以看出ARIMA模型中的d=1

定阶方法: 
1.人为判断:自相关图显示出从第1阶之后的截尾性质,偏自相关图从第1阶之后显示出拖尾的性质,所以人为判断使用MA(1)模型,即ARMA(0,1,1) 
2.相对最优模型识别,当p和q均小于等于3的所有组合的BIC信息量,取其中BIC信息量达到最小的模型阶数。

 
  1. #定阶

  2. pmax = int(len(D_data)/10) #一般阶数不超过length/10

  3. qmax = int(len(D_data)/10) #一般阶数不超过length/10

  4. bic_matrix = [] #bic矩阵

  5. for p in range(pmax+1):

  6. tmp = []

  7. for q in range(qmax+1):

  8. try: #存在部分报错,所以用try来跳过报错。

  9. tmp.append(ARIMA(data, (p,1,q)).fit().bic)

  10. except:

  11. tmp.append(None)

  12. bic_matrix.append(tmp)

  13.  
  14. bic_matrix = pd.DataFrame(bic_matrix) #从中可以找出最小值

  15.  
  16. p,q = bic_matrix.stack().idxmin() #先用stack展平,然后用idxmin找出最小值位置。

  17. print(u'BIC最小的p值和q值为:%

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 17

BIC矩阵 
取其中BIC信息量达到最小的模型阶数。 
这里写图片描述
确定p=0,q=1

拟合模型

 
  1. model = ARIMA(data, (p,1,q)).fit() #建立ARIMA(0, 1, 1)模型

  2. model.summary2() #给出一份模型报告

  3. model.forecast(5) #作为期5天的预测,返回预测结果、标准误差、置信区间。

  • 1
  • 2
  • 3
  •  

最终得到模型的预测结果

数据和完整代码可以通过在留言中留下邮箱获取哦~

土豆洋芋山药蛋:http://blog.csdn.net/qq_33414271 https://blog.csdn.net/qq_33414271/article/details/79588126

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
时间序列分析是一种用于处理时间相关数据的方法,可以用于预测未来趋势、分析周期性模式等。在前端使用时间序列分析算法时,一般可以按照以下步骤进行: 1. 数据准备:首先需要收集和整理时间序列数据,确保数据的准确性和完整性。可以使用 JavaScript 或其他前端语言来获取和处理数据。 2. 数据可视化:在进行时间序列分析之前,通常需要对数据进行可视化,以便更好地理解数据的特征和趋势。可以使用前端的数据可视化库(如 D3.js、ECharts 等)来绘制折线图、柱状图等图表。 3. 数据预处理:对于时间序列数据,常见的预处理操作包括平滑处理、缺失值处理、异常值处理等。可以使用前端的统计库或自定义函数进行数据预处理。 4. 应用时间序列算法:选择合适的时间序列算法来进行分析,常见的算法包括移动平均、指数平滑、ARIMA 模型、季节性分解等。可以使用前端的统计库(如 stats.js、time-series-analysis 等)来应用这些算法。 5. 结果展示:将分析结果展示在前端页面上,可以使用图表等方式展示预测结果、趋势分析等信息。同时,可以根据用户需求添加交互功能,如选择不同的时间窗口、调整参数等。 需要注意的是,时间序列分析是一个复杂的领域,需要一定的统计和数学知识作为基础。前端开发者在使用时间序列分析算法时,可以结合相关的文档和教程进行学习和实践,不断提升自己的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值