数据挖掘笔记(6)-时间序列分析

参考博客有:https://blog.csdn.net/WMN7Q/article/details/70174300

一、时间序列的概念
按时间顺序排列的 n 个随机变量X1,X2,…,Xn称为随机变量X的时间序列,简记为{Xn},而x1,x2,…,xn代表随机变量 X 的时间序列的n个有序观察值。
比如某饭店在1月1号到1月10号所有菜品的日销量数据如下图所示:
在这里插入图片描述
则称3023,3039,3056,3138,3188,3224,3226,3029,2859,2870为 销量 这一随机变量的时间序列的10个有序观察值。

二、时间序列的预处理
在拿到随机变量的时间序列对应的观察值序列后,首先要检验观察值序列的平稳性和纯随机性。
平稳性检验:
(1)时序图法
平稳时间序列的均值和方差都为常数,所以平稳时间序列的时序图应该呈现出序列值(观察值)在某一常数附近随机波动,而且波动的范围有限。如果时序图有明显的趋势性或周期性,则不是平稳序列。
例:对某饭店1月份和2月份所有菜品的日销量数据绘制时序图
部分数据展示如下:
在这里插入图片描述
时序图:
在这里插入图片描述
可见销量随着天数处于增长趋势,所以销量的时间序列不是平稳序列。

(2)自相关系数图法
平稳序列具有短期相关性,也就是对于平稳序列而言只有近期的序列值会对当前序列值产生的影响比较明显,间隔越远的序列值对当前值的影响越小。所以随着延迟(滞后)期数k的增加,平稳序列的自相关系数ρk会较快的衰减趋向于零,并在零附近波动。而非平稳序列的自相关系数则衰减的比较缓慢。

自相关系数:
为什么叫自相关系数,简单来说因为计算该相关系数的值都来自同一个变量。因为它是用来衡量同一个随机变量在两个不同时间段内的观察值的相关程度,也就是衡量自己过去的行为对现在造成影响。
假设某一随机变量X的时间序列的观察值序列如下:
x1, x2, x3, x4, x5, x6, x7, x8, x9, x10
延迟或滞后3期将观察值序列分为两组:
(x1滞后3期为x4,以此类推)
第一组:x1,x2,x3,x4,x5,x6,x7
第二组:x4,x5,x6,x7,x8,x9,x10
所以滞后3期得到随机变量X的时间序列的自相关系数ρ3为:
在这里插入图片描述
经扩展可得任一随机变量X的时间序列滞后k期的自相关系数ρk:
在这里插入图片描述
偏自相关系数:
计算一个随机变量X的时间序列滞后k期的自相关系数ρk,实际上我们得到是
x1,x2,…xn-k和xk+1,xk+2,…,xn的相关关系,并没有直接衡量x1与xk+1,x2与xk+2,…,xn-k与xn之间的相关关系。对于xn-k与xn来说,滞后k期的自相关系数ρk里面掺杂了xn-k到xn之间的k-1个值对xn的影响,而偏自相关系数就是用来衡量xn-k和xn之间的直接相关关系。
公式如下:
在这里插入图片描述

  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值