差分是一个广泛用于时间序列的数据变换。
在本教程中,你将发现如何使用Python将差分操作应用于时间序列数据。
完成本教程后,你将学到:
关于差分运算,包括延迟差分的配置和差分序列。
如何开发手动实现的差分运算。
如何使用内置的Pandas差分函数。
让我们开始吧。
为什么差分时间序列数据?
差分是一种变换时间序列数据集的方法。
它可以用于消除序列对时间性的依赖性,即所谓的时间性依赖。这包含趋势和周期性的结构。
不同的方法可以帮助稳定时间序列的均值,消除时间序列的变化,从而消除(或减少)趋势和周期性。
通过从当前观察中减去先前观察值来实现差分。
difference(t) = observation(t) - observation(t-1)
这样可以计算出序列差分。
延迟差分
将连续观察值之间的差值称为延迟-1差分。
可以调整延迟差分来适应特定的时间结构。
对于有周期性成分的时间序列,延迟可能是周期性的周期(宽度)。
差分序列
执行差分操作后,如非线性趋势的情况下,时间结构可能仍然存在。
因此,差分过程可以一直重复,直到所有时间依赖性被消除。
执行差分的次数称为差分序列。
洗发水销售数据集
该数据集描述了3年内洗发水的月销量。
这些单位是销售