时间序列模型

最新推荐文章于 2024-07-04 18:00:00 发布

一石一页

最新推荐文章于 2024-07-04 18:00:00 发布

阅读量1.7k

点赞数

文章标签： python 机器学习

本文链接：https://blog.csdn.net/dongjishuo/article/details/105460664

版权

时间序列：时间间隔不变的情况下收集时间点的集合，这些时间序列经过分析之后被用来挖掘其中蕴含的规律以及发展趋势。

笔者言：时间序列并非必须符合时间间隔不变的情况，对于一些数据集而言可以看做是时间序列来进行相关的研究。例如，笔者所做的毕业论文所用数据集为铝合金板疲劳裂纹拓展长度（一块含有预置裂纹的铝合金板，经过不断震动直到断裂）的数据集，每一块铝合金板整个生命周期的裂纹长度（从些许裂纹到完全断裂的过程）就可以看作是时间序列数据。

注：使用python的pandas函数库时，时间序列series的index必须是datetime（时间戳），index若是其他的数据类型编辑器会报错：AttributeError: 'Index' object has no attribute 'inferred_freq'。

说白了，python中调用相关函数库，数据集index要求是datetime的数据集必须使用时间戳类型格式作为index，例如：笔者毕业论文数据集中属性“ fre ”列数据作为datetime就会产生错误。

数据集格式如下所示：

fre:加载的震动次数

A、B、C、D：分别为裂纹长度

时间序列的稳定性：

若时间序列的统计特征（平均数、方差）随时间保持不变，我们就可以认为它是稳定的。

根据实际需求分析，具有以下特征之一的即可认为数据平稳：

·恒定的平均数

·恒定的方差

·不随时间变化的自协方差

为什么时间序列稳定性这么重要？

大部分时间序列模型是在假设它是稳定的前提下建立的。直观地说，我们可以这样认为，如果一个时间序列随着时间产生特定的行为，就有很高的可能性认为它在未来的行为是一样的。同时，根据稳定序列得出的理论是更加成熟的，也是更容易实现与非稳定序列的比较。

笔者悟：使用时间序列进行相关研究，并不一定完全按照时间序列的相关思路按部就班进行，即对于时间序列稳定性方面，也并不一定要求时间序列必须稳定才可进行相关研究。例如：笔者毕业论文对于裂纹拓展趋势的预测方面，笔者先将加载次数（属性列“fre”）数据归一化到0-1，A、B、C、D四列数据相加作为总裂纹长度，即经过数据处理之后形成了加载次数--总裂纹长度之间关系的研究，之后借鉴LSTM（长短记忆网络）模型进行总裂纹拓展的预测，效果非常优秀。

此部分引自于博主：https://blog.csdn.net/pipisorry/article/details/62053938

1、统计模型函数库

from statsmodels.tsa.stattools import adfuller

1、regression: Generalized least squares (including weighted least squares and least squares with autoregressive errors), ordinary least squares.

2、glm: Generalized linear models with support for all of the one-parameter exponential family distributions.
discrete choice models: Poisson, probit, logit, multinomial logit
3、rlm: Robust linear models with support for several M-estimators.
4、tsa: Time series analysis models, including ARMA, AR, VAR
5、nonparametric : (Univariate) kernel density estimators
6、datasets: Datasets to be distributed and used for examples and in testing.
7、PyDTA: Tools for reading Stata .dta files into numpy arrays.
8、stats: a wide range of statistical tests

引用博主： https://blog.csdn.net/The_Time_Runner/article/details/89969173

对于返回参数的解释：

adfuller(timeseries)

返回值为(-5.2350403606036302, 7.4536580061930903e-06, 0, 60, {'1%': -3.5443688564814813, '5%': -2.9110731481481484, '10%': -2.5931902777777776}, 1935.4779504450603)

最近在学习用ARIMA模型建模处理预测数据的时候遇到的一个用来评测稳定性的函数，该函数可以返回一个数组，包含五个数据。

第一个是ADT检验的结果，也就是 t 统计量的值。

t 统计量：计量经济学模型中关于参数的单个假设进行检验的一种统计量；一般的t统计量制写成 t =（估计值 - 假设值）/标准误差，当假设值为0时，便得到通常的 t 统计量。

我们一般用 t 统计量针对单侧或双侧对立假设做检验。例如：假设H0：a = 1，H1:a > 1，我们计算 t 统计量之后，如果t > c，我们就拒绝H0，接受H1,此时我们便说在适当的显著性水平上，a统计显著地大于1。
第二个是 t 统计量的P值。

P 值：就是当原假设为真时，所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，内我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。
第三个是计算过程中用到的延迟阶数。
第四个是用于ADF回归和计算的观测值的个数。
第五个是配合第一个一起看的，是在99%，95%，90%置信区间下的临界的ADF检验的值。如果第一个值比第五个值小证明平稳，反正证明不平稳。根据结果看出来，你的数据不平稳。

原文出自：https://blog.csdn.net/qq_36707798/article/details/88640684