时间序列分析 | Python实现时间序列数据分析
基本介绍
时间序列的处理是传统经济学里面的一个重要篇章,在数据科学和机器学习的背景下,时间序列分析所包含的内容更加复杂。
- 计量经济学里的时间序列特指一元时间序列,也就是数据包含两列,第一列是时间戳,第二列是观察对象。这属于比较经典的时间序列。有时候你会注意到一些时间序列的模型或者算法,比如ARIMA,prophet等,都是针对这类时间序列。
- 商业里面的交易历史信息也是一元时间序列。工业领域中,一些监测数据,比如天气温度,也是一元时间序列。但是时间序列不止有一元时间序列,当同一个时间戳对应的观测对象不只一个时,我们就有了多元时间序列。比如某个城市的空气PM2.5的预测,我们可以通过PM2.5的历史时间观测值来预测。我们也可以通过当天(或者近期)的其他观测对象来预测,比如风速,温度,湿度等。
- 多元时间序列在表现形式上就是数据包含多列(大于两列),第一列是时间戳,后面的列都是观察对象。当时间序列是多元时,很多经典的机器学习模型可以施展拳脚,比如回归模型,分类模型,这些模型都依赖于多元的特征。对于我们本文以及后续的分析中,我们不会将时间序列特指为一元时间序列。
- 无论是一元时间序列的分析还是多元时间序列的分析,对于时间相关的预处理格外重要。今天我们就讨论pandas在时间序列处理中应用。
程序设计
- 这里我们采用美国能源消耗数据集进行分析和讨论&#