简介
诸如:预测一个家庭未来三个月的用电量,估计特定时期道路上的交通流量,以及预测一个股票在纽约证券交易所交易的价格等等,这些应用都有什么共同点?
它们都归属于时间序列数据的概念!如果没有“时间”成分,就无法准确地预测这些结果。随着我们周围的世界产生的数据越来越多,时间序列预测已成为数据科学家必须掌握的一项越来越关键的技术。
然而,时间序列却是一个复杂的话题,它同时具有多面性。
首先,要想使预测模型正常工作,就必须使时间序列保持平稳。为什么?因为绝大部分的原始数据都会有非平稳的趋势。如果尖峰是不稳定的,又怎么能确保模型正常工作呢?
本文的重点是时间序列数据的平稳性检验方法。在此假设读者已熟悉时间序列、ARIMA和平稳性的概念,以下是一些包含基础内容的参考资料:关于时间序列建模的完整教程-
初学者创建时间序列预测综合指南
目录
1. 平稳简介
2. 加载数据
3. 检验平稳的方法
ADF检验
KPSS检验
4. 平稳的种类
严格平稳
趋势平稳
差分平稳
5. 时间序列平稳化
差分
季节性差分
对数变换
1. 平稳简介
“平稳”是处理时间序列数据时遇到的最重要的概念之一:平稳序列是指其特性-均值、方差和协方差不随时间而变化的序列。
让我们用一个直观的例子来理解这一点。考虑以下三个图形:在第一幅图中,我们可以清楚地看到,均值随时间而变化(增加),呈现上升的趋势。因此,这是一个非平稳序列。对于一个平稳的时间序列,它不应该呈现出随时间