使用R语言进行时间序列（arima，指数平滑）分析

拓端研究室TRL

已于 2022-11-23 18:50:01 修改

阅读量4.4k

点赞数 2

分类专栏：拓端tecdat 拓端数据拓端文章标签： r语言开发语言

于 2022-10-26 15:06:54 首次发布

本文链接：https://blog.csdn.net/tecdat/article/details/127532857

版权

本文详细介绍了如何使用R语言进行时间序列分析，包括读取时间序列数据、绘制时间序列图、分解时间序列、指数平滑预测以及ARIMA模型的构建与应用。通过实例展示了非季节性和季节性时间序列的处理方法，如使用简单指数平滑、Holt的指数平滑以及Holt-Winters指数平滑进行预测，并分析了预测误差的特性。

摘要由CSDN通过智能技术生成

读时间序列数据

您要分析时间序列数据的第一件事就是将其读入R，并绘制时间序列。您可以使用scan（）函数将数据读入R，该函数假定连续时间点的数据位于包含一列的简单文本文件中。

相关视频：在Python和R语言中建立EWMA，ARIMA模型预测时间序列

数据集如下所示：

国王死亡年龄数据 
60
43
67
50
56
42
50
65
68
43
65
34
...

仅显示了文件的前几行。前三行包含对数据的一些注释，当我们将数据读入R时我们想要忽略它。我们可以通过使用scan（）函数的“skip”参数来使用它，它指定了多少行。要忽略的文件顶部。要将文件读入R，忽略前三行，我们键入：

 
> kings
  [1] 60 43 67 50 56 42 50 65 68 43 65 34 47 34 49 41 13 35 53 56 16 43 69 59 48
  [26] 59 86 55 68 51 33 49 67 77 81 67 71 81 68 70 77 56

在这种情况下，英国42位连续国王的死亡年龄已被读入变量“国王”。

一旦将时间序列数据读入R，下一步就是将数据存储在R中的时间序列对象中，这样就可以使用R的许多函数来分析时间序列数据。要将数据存储在时间序列对象中，我们使用R中的ts（）函数。例如，要将数据存储在变量'kings'中作为R中的时间序列对象，我们键入：

 
  Time Series:
  Start = 1
  End = 42
  Frequency = 1
  [1] 60 43 67 50 56 42 50 65 68 43 65 34 47 34 49 41 13 35 53 56 16 43 69 59 48
  [26] 59 86 55 68 51 33 49 67 77 81 67 71 81 68 70 77 56

您所拥有的时间序列数据集可能是以不到一年的固定间隔收集的，例如，每月或每季度。在这种情况下，您可以使用ts（）函数中的'frequency'参数指定每年收集数据的次数。对于月度时间序列数据，您设置频率= 12，而对于季度时间序列数据，您设置频率= 4。

您还可以使用ts（）函数中的“start”参数指定收集数据的第一年和该年度的第一个时间间隔。例如，如果第一个数据点对应于1986年第二季度，则设置start = c（1986,2）。

 
> birthstimeseries <- ts(births, frequency=12, start=c(1946,1))#转化成时间序列数据格式
> birthstimeseries
    Jan    Feb    Mar    Apr    May    Jun    Jul    Aug    Sep    Oct    Nov    Dec
  1946 26.663 23.598 26.931 24.740 25.806 24.364 24.477 23.901 23.175 23.227 21.672 21.870
  1947 21.439 21.089 23.709 21.669 21.752 20.761 23.479 23.824 23.105 23.110 21.759 22.073
  1948 21.937 20.035 23.590 21.672 22.222 22.123 23.950 23.504 22.238 23.142 21.059 21.573
  1949 21.548 20.000 22.424 20.615 21.761 22.874 24.104 23.748 23.262 22.907 21.519 22.025
  1950 22.604 20.894 24.677 23.673 25.320 23.583 24.671 24.454 24.122 24.252 22.084 22.991
  1951 23.287 23.049 25.076 24.037 24.430 24.667 26.451 25.618 25.014 25.110 22.964 23.981
  1952 23.798 22.270 24.775 22.646 23.988 24.737 26.276 25.816 25.210 25.199 23.162 24.707
  1953 24.364 22.644 25.565 24.062 25.431 24.635 27.009 26.606 26.268 26.462 25.246 25.180
  1954 24.657 23.304 26.982 26.199 27.210 26.122 26.706 26.878 26.152 26.379 24.712 25.688
  1955 24.990 24.239 26.721 23.475 24.767 26.219 28.361 28.599 27.914 27.784 25.693 26.881
  1956 26.217 24.218 27.914 26.975 28.527 27.139 28.982 28.169 28.056 29.136 26.291 26.987
  1957 26.589 24.848 27.543 26.896 28.878 27.390 28.065 28.141 29.048 28.484 26.634 27.735
  1958 27.132 24.924 28.963 26.589 27.931 28.009 29.229 28.759 28.405 27.945 25.912 26.619
  1959 26.076 25.286 27.660 25.951 26.398 25.565 28.865 30.000 29.261 29.012 26.992 27.897

同样， 1987年1月至1993年12月澳大利亚昆士兰州海滩度假小镇纪念品商店的月销售额（来自Wheelwright和Hyndman的原始数据， 1998）。我们可以通过输入以下内容将数据读入R：

   Read 84 items
> souvenirtimeseries <- ts(souvenir, frequency=12, start=c(1987,1))
> souvenirtimeseries
  Jan       Feb       Mar       Apr       May       Jun       Jul       Aug       Sep       Oct       Nov       Dec
  1987   1664.81   2397.53   2840.71   3547.29   3752.96   3714.74   4349.61   3566.34   5021.82   6423.48   7600.60  19756.21
  1988   2499.81   5198.24   7225.14   4806.03   5900.88   4951.34   6179.12   4752.15   5496.43   5835.10  12600.08  28541.72
  1989   4717.02   5702.63   9957.58   5304.78   6492.43   6630.80   7349.62   8176.62   8573.17   9690.50  15151.84  34061.01
  1990   5921.10   5814.58  12421.25   6369.77   7609.12   7224.75   8121.22   7979.25   8093.06   8476.70  17914.66  30114.41
  1991   4826.64   6470.23   9638.77   8821.17   8722.37  10209.48  11276.55  12552.22  11637.39  13606.89  21822.11  45060.69
  1992   7615.03   9849.69  14558.40  11587.33   9332.56  13082.09  16732.78  19888.61  23933.38  25391.35  36024.80  80721.71
  1993  10243.24  11266.88  21826.84  17357.33  15997.79  18601.53  26155.15  28586.52  30505.41  30821.33  46634.38 104660.67

绘制时间序列

一旦你将时间序列读入R，下一步通常是制作时间序列数据的图，你可以用R中的plot.ts（）函数做。

例如，为了绘制英国42位连续国王的死亡时间序列，我们输入：

> plot.ts(kingstimeseries)

此搜索

我们可以从时间图中看出，可以使用加性模型来描述该时间序列，因为数据中的随机波动在大小上随时间大致恒定。

同样，为了绘制纽约市每月出生人数的时间序列，我们输入：

图像2

从这个时间序列我们可以看出，每月出生人数似乎有季节性变化：每年夏天都有一个高峰，每个冬天都有一个低谷。同样，似乎这个时间序列可能是用加性模型来描述的，因为季节性波动的大小随着时间的推移大致不变，似乎并不依赖于时间序列的水平，随机波动似乎也是随着时间的推移大小不变。

同样，为了绘制澳大利亚昆士兰州海滩度假小镇纪念品商店每月销售的时间序列，我们输入：

图像4

在这种情况下，似乎加法模型不适合描述这个时间序列，因为季节性波动和随机波动的大小似乎随着时间序列的水平而增加。因此，我们可能需要转换时间序列以获得可以使用加法模型描述的变换时间序列。例如，我们可以通过计算原始数据的自然日志来转换时间序列：

 > plot.ts(logsouvenirtimeseries)

图像5

在这里我们可以看到，对数变换时间序列中的季节性波动和随机波动的大小似乎随着时间的推移大致不变，并且不依赖于时间序列的水平。因此，可以使用加法模型来描述对数变换的时间序列。

分解时间序列

分解时间序列意味着将其分成其组成部分，这些组成部分通常是趋势分量和不规则分量，如果是季节性时间序列，则是季节性分量。

分解非季节性数据

非季节性时间序列由趋势分量和不规则分量组成。分解时间序列涉及尝试将时间序列分成这些分量，即估计趋势分量和不规则分量。

为了估计可以使用加性模型描述的非季节性时间序列的趋势分量，通常使用平滑方法，例如计算时间序列的简单移动平均值。

“TTR”R包中的SMA（）函数可用于使用简单的移动平均值来平滑时间序列数据。要使用此功能，我们首先需要安装“TTR”R软件包。一旦安装了“TTR”R软件包，就可以输入以下命令加载“TTR”R软件包：

然后，您可以使用“SMA（）”功能来平滑时间序列数据。要使用SMA（）函数，需要使用参数“n”指定简单移动平均值的顺序（跨度）。例如，要计算5阶的简单移动平均值，我们在SMA（）函数中设置n = 5。

例如，如上所述，英国42位连续国王的死亡年龄的时间序列出现是非季节性的，并且可能使用加性模型来描述，因为数据中的随机波动大小基本上是恒定的。时间：

此搜索

因此，我们可以尝试通过使用简单移动平均线进行平滑来估计此时间序列的趋势分量。要使用3阶简单移动平均值平滑时间序列，并绘制平滑时间序列数据，我们键入：

> kingstimeseriesSMA3 <- SMA(kingstimeseries,n=3)
> plot.ts(kingstimeseriesSMA3)

在使用3阶简单移动平均值平滑的时间序列中，似乎存在相当多的随机波动。因此，为了更准确地估计趋势分量，我们可能希望尝试使用简单的移动平均值来平滑数据。更高阶。这需要一些试错，才能找到合适的平滑量。例如，我们可以尝试使用8阶的简单移动平均线：

> kingstimeseriesSMA8 <- SMA(kingstimeseries,n=8)
> plot.ts(kingstimeseriesSMA8)

使用8阶简单移动平均值进行平滑的数据可以更清晰地显示趋势分量，我们

最低0.47元/天解锁文章

拓端研究室TRL

关注

2
点赞
踩
52

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录