本文约3600字,建议阅读10分钟。
本文将重点介绍时间序列数据的平稳性检验方法。
简介
预测一个家庭未来三个月的用电量,估计特定时期道路上的交通流量,预测一只股票在纽约证券交易所交易的价格……这些问题都有什么共同点?
它们都属于时间序列数据的范畴!如果没有“时间”成分,就无法准确地预测出结果。随着我们周围世界产生的数据越来越多,时间序列预测已成为数据科学家必须掌握的一项越来越关键的技能。
然而,时间序列是一个复杂的话题,它具有多面性。
首先,要想使预测模型正常工作,就必须使时间序列保持平稳。为什么?因为绝大部分原始数据都会有非平稳的趋势。如果有很多不规则的尖峰,你怎么能确保模型正常工作呢?
本文将重点介绍时间序列数据的平稳性检验方法。在此假设读者已熟悉时间序列、ARIMA和平稳性的概念,以下是一些包含基础内容的参考资料:
时间序列建模完整教程
给初学者的时间序列预测综合指南
目录
1. 平稳简介
2. 加载数据
3. 检验平稳的方法ADF检验
KPSS检验
4. 平稳的种类严格平稳
趋势平稳
差分平稳
5. 时间序列平稳化差分
季节性差分
对数变换
1. 平稳简介
“平稳”是处理时间序列数据时遇到的最重要的概念之一:平稳序列是指其特性-均值、方差和协方差不随时间而变化的序列。
让我们用一个直观的例子来理解这一点。考虑以下三个图形:
在第一幅图中,我们可以清楚地看到,均值随时间而变化(增加),呈现上升的趋势。因此,这是一个非平稳序列。平稳序列不应该呈现出随时间变化的趋势。
第二幅图显然看不到序列的趋势,但序列的变化是一个时间的函数。正如前面提到的,平稳序列的方差必须是一个常数。
再来看第三幅图,随着时间的增加,序列传播后变得更近,这意味着协方差是时间的函数。
上述三个例子均是非平稳时间序列。现在来看第四个图:
在这张图中,均值、方差和协方差都是常数,这就是平稳时间序列。
再想一想,上面的哪一幅图预测未来会更容易呢&#