处理过与时间有关的数据的人都知道,差分变化经常用来使得结果更加直观。在这篇文章里将会教你如何用Python来实现这一目的,读完这篇文章,你将会掌握以下技能:
1、知道什么是差分变换以及滞后差分和差分阶数的设置
2、如何手动计算差分
3、怎样使用Pandas内置的差分函数
所以,让我们赶紧开始吧!
为什么要对时间序列数据进行差分?首先来看下为什么要对数据进行差分变化,差分变化可以消除数据对时间的依赖性,也就是降低时间对数据的影响,这些影响通常包括数据的变化趋势以及数据周期性变化的规律。进行差分操作时,一般用现在的观测值减去上个时刻的值就得到差分结果,就是这么简单,按照这种定义可以计算一系列的差分变换。
滞后差分
连续观测值之间的差分变换叫做一阶滞后差分。滞后差分的步长需要根据数据的时间结构做调整,例如对于周期性变化的数据,这个时间步长就是数据变化的周期。
差分阶数
在进行一次差分之后,时间项的作用并没有完全去掉,将会继续对差分结果进行差分变化,直到完全消除时间项的影响因素为止,这个过程中进行的差分操作次数就称为差分阶数。
洗发水销售数据
这份数据是三年来每月洗发水的销售情况,总共有36个数据记录,原始数据来自Makridakis, Wheelwright和 Hyndman (1998).,可以从下面的地址下到数据:
https://datamarket.com/data/set/22r0/s