时间序列数据挖掘--机器学习+统计学方法+kdd论文(二)

机器学习+统计学+kdd1718论文

第二篇博客,接着上面的笔记写。
上一篇因为操作失误没有保存简直太失败了,这次要注意点。
这一篇主要记录我从统计学模型的角度学习时间序列模型。
因为我不是统计学学生,所以很多知识我都不是很了解,这篇博客的内容都是我现学习的,所以算是一个学习笔记吧。

机器学习下的时间序列

RNN

RNN使用领域

LSTM

统计学下的时间序列

我在网上看,常用的时间序列模型有四种:自回归模型 AR§、移动平均模型 MA(q)、自回归移动平均模型 ARMA(p,q)、自回归差分移动平均模型 ARIMA(p,d,q), 可以说前三种都是 ARIMA(p,d,q)模型的特殊形式。

ARIMA

ARIMA的含义

ARIMA包含3个部分:AR、I、MA。可见,ARIMA模型实际上是AR模型和MA模型的组合

  1. AR: auto regression,即自回归模型
  2. I: integration,即单整阶数,平稳分析后得到几阶单整
  3. MA: moving average,即移动平均模型。
模型前提:平稳

比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。

  1. 平稳的时间序列,非平稳序列直接进行分析,会有伪回归问题。
  2. 检验时间平稳的方法: ADF 单位根检验(如果时间序列不稳定,也可以通过一些操作如log,差分等使得时间序列稳定,此时在 ARIMA 要将结果进行逆操作如取指数,差分的逆操作,可以得到原始数据的预测结果)
  3. ADF 单位检验:若时间序列模型中含有单位根,则模型是非平稳的。核心是单位根检验,具体的单位根检验的学习内容:
    https://wenku.baidu.com/view/b18e720b19e8b8f67c1cb9ec.html
    平稳性的定义:
    我感觉简而言之就是:一个时间序列的随机变量是稳定的,当且仅当它的所有统计特征都是独立于时间的(是关于时间的常量)。
    稳定的数据是没有趋势(trend),没有周期性(seasonality)的; 即它的均值,在时间轴上拥有常量的振幅,并且它的方差,在时间轴上是趋于同一个稳定的值的。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    使用t假设检验,当t统计量大于假设检验临界值(5%等),则接受零假设,序列不平稳;当小于临界值,则拒绝了零假设,则序列是平稳的。
    一个例子:
    使用python对某个时间序列数据进行检验,结果如下(看p-value):在这里插入图片描述
    在这里插入图片描述
    上述例子来源:
    https://www.jianshu.com/p/4130bac8ebec
ARIMA的数学形式

ARIMA(p,d,q)模型有三个参数:p,d,q

  1. p:AR/Auto-Regressive项,代表预测模型中采用的时序数据本身的滞后数(lags)
  2. d:Integrated项,代表时序数据需要进行几阶差分化,才是稳定的
  3. q:MA/Moving Average项,代表预测模型中采用的预测误差的滞后数(lags)

数学形式:
在这里插入图片描述
y表示因变量Y的差分:
在这里插入图片描述
此模型可以描述为三个部分:常数+多个时间的加权和(AR模型)+多个时间的预测误差(MA模型)

几个特列

  1. ARIMA(0,1,0) = random walk
    在这里插入图片描述
  2. ARIMA(1,0,0) = first-order autoregressive model
    在这里插入图片描述
  3. ARIMA(1,1,0) = differenced first-order autoregressive model
    在这里插入图片描述
  4. ARIMA(0,1,1) = simple exponential smoothing with growth
    在这里插入图片描述
    更多例子详见:
    https://www.cnblogs.com/bradleon/p/6827109.html
ARIMA模型建立步骤
  1. 平稳检验,得到d值:若本身序列是平稳的则d=0,若一阶差分是平稳的则d=1,以此类推。
  2. 将平稳序列画出ACF,PACF图像,得出p,q值:p的值就是ACF第一次穿过上置信区间时的横轴值,q的值就是PACF第一次穿过上置信区间的横轴值(要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF,通过对自相关图和偏自相关图的分析,得到最佳的阶层 p 和阶数 q)
  3. 将得到的d,p,q带入求出ARIMA模型公式:通过数据拟合出模型的函数表达式(得到参数)
  4. 使用拟合的函数可以进行预测
    在这里插入图片描述
    示例图是一个例子中的ARIMA的函数图,蓝线是输入数据,红线是拟合的值,我们使用红线就可以预测出之后的值。
    但要注意此时的出的预测是一阶差分的预测,因此需要逆求出真实值。
    上述具体的例子:
    https://www.cnblogs.com/bradleon/p/6832867.html
一些细节

对ARIMA模型一个更简洁的表述:
在这里插入图片描述
链接:https://blog.csdn.net/chanbupt/article/details/70448147

AR自回归模型
是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型.
在这里插入图片描述
MA移动平均模型
MA模型和AR大同小异,它并非是历史时序值的线性组合而是历史白噪声的线性组合。与AR最大的不同之处在于,AR模型中历史白噪声的影响是间接影响当前预测值的(通过影响历史时序值)。
MA模型使用不同阶滞后的白噪音拟合。
在这里插入图片描述
白噪声的期望是0,方差为常数。
白噪声的定义:
对于一个随机变量X(t)(t=1,2,3……),如果是由一个不相关的随机变量的序列构成的,即对于所有s不等于t,随机变量X(t)和X(s)的协方差为零,则称其为纯随机过程。对于一个纯随机过程来说,若其期望为0,方差为常数,则称之为白噪声过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值