目录
摘要
本周阅读的文献主要是关于时间序列数据预测方法,该文献主要提出了对时间序列数据预测方法进行分类,研究了现有方法中存在的问题以及分析未来的发展趋势。从研究背景、研究思路、研究方法以及研究意义等方面对这篇进行了阅读和分析,本文根据发展进程将时间序列预测方法分为三大类,即方程时间序列经典预测方法、时间序列的机器学习预测模型以及混合预测方法,以及每种分类下不同方面的细分类。该文献并没有提出新的方法或者模型,只是对现有方法从不同的角度进行分类总结,从中找到该方面研究存在的问题和发展前景。对于该文献阅读主要着重于理解研究思路以及研究的意义等方面。
Abstract
The literature read this week is mainly about time series data prediction methods. This literature mainly proposes the classification of time series data prediction methods, studies the problems in existing methods, and analyzes future development trends. This article has been read and analyzed from the perspectives of research background, research ideas, research methods, and research significance. Based on the development process, this article divides time series prediction methods into three major categories: classical prediction methods for equation time series, machine learning prediction models for time series, and hybrid prediction methods, as well as detailed classification of different aspects under each classification. This literature does not propose new methods or models, but simply categorizes and summarizes existing methods from different perspectives, in order to identify the problems and development prospects in this field of research. The reading of this literature mainly focuses on understanding research ideas and the significance of the research.
文献阅读:时间序列数据的预测方法
ZHENYU LIU , ZHENGTONG ZHU, JING GAO, AND CHENG XU
College of Computer and Information Engineering, Inner Mongolia Agricultural University,Hohhot 010018, China Inner Mongolia Autonomous Region Key Laboratory of Big Data Research and Application for Agriculture and Animal Husbandry, Hohhot 010018, China
Received June 1, 2021, accepted June 15, 2021, date of publication June 21, 2021, date of current version July 2, 2021.
研究背景
时间序列数据的预测方法已成为研究的热点之一,在各个领域产生了越来越多的时间序列数据。时间序列数据预测在气象和天气预报、工业生产预测和库存趋势预测方面都得到了广泛的应用,它可以帮助决策者规避风险。传统的基于概率和统计的时间序列预测方法在很多领域都取得了巨大的成果,而随着大数据发展,服从多重分布模式的大量非线性时间序列数据不断产生,给时间序列预测方法带来了更大的挑战。因此,人们使用机器学习和深度学习采用高度复杂的时间序列数据预测方法取得了良好的效果,现有的时间序列数据的预测方法数量繁多,且注重于不同的领域,某些方法之前存在很多共同点,本文提出根据时间序列数据的预测方法,对现有的各种时间序列预测方法进行分类
知识前提
时间序列数据:指在一个等间隔的时间段内,在给定的采样率下观察某一过程的结果。时间序列分析的核心是从数据中发现规律,并根据历史观测结果预测未来的价值,为决策提供参考和依据。
研究思路
- 首先,从数据方面和模型方面,以及实时计算方面进行分析,根据数据的异常值和缺失值问题、数据模型随着时间推移精度和性能不断下降的问题,以及无法实现实时计算的问题等方面,引出并总结了时间序列预测方法研究中存在的问题。
- 其次,根据时间序列预测方法的发展过程,将时间序列预测方法分为三类:方程时间序列经典预测方法、时间序列的机器学习预测模型以及混合预测方法,对每种类型进行介绍和细分类。除此之外,对于每种方法的经典模型进行了介绍,通过模型运用实例的效果对模型的优缺点进行评估。
- 最后对未来方向和开放问题进行分析,从未来会出现的预测方法的计算效率问题出发,提出未来时间序列预测方法的研究方法趋势,有数据预处理、模型构建、并行计算三个研究方向。
时间序列预测方法分类
方程时间序列经典预测方法
方程时间序列经典预测方法是基于数学和统计建模的,包括经典的线性模型和经典的非线性模型,其中经典的线性模型包括对平稳数据的预测模型和非平稳数据的预测模型,
一、经典的线性模型
- 平稳数据的预测模型:其将随机性的概念引入到时间序列中,将每个时间序列视为一个随机过程的实现,并提出了自回归(AR)模型,将每个时间序列视为一个随机过程的实现。然而,在实时序列数据中几乎不存在纯粹的平稳数据。因此,该模型的应用受到数据特性的限制,通用性较差。
- 非平稳数据的预测模型:包含趋势、季节性或周期性等特征的序列称为非平稳序列,它可能只包含一种成分,也可能包含几种成分。非平稳时间序列是指在局部水平或趋势被消除后,它表现出同质性。此时,该系列的某些部分与其他部分非常相似。该非平稳时间序列经过差分处理后可以转换为平稳时间序列。ARIMA(p, d, q)是众所周知的非平稳时间序列模型,它可以反映不同数据模式的变化,并且模型需要较少的参数来估计。
线性预测模型易于理解,易于实现。但是线性模型需要在线性假设下构建,对于非线性时间序列数据效果较差。为此,提出了非线性时间序列预测模型。
二、经典的非线性模型
著名的经典非线性模型有阈值自回归(TAR)模型、自回归条件异方差(ARCH)模型和恒条件相关(CCC)模型等。
- 阈值自回归(TAR)模型:
- 回归条件异方差(ARCH)模型
- 恒条件相关(CCC)模型
时间序列的机器学习预测模型
经典的时间序列预测模型能够很好地捕捉时间序列中的线性关系,在数据集较小的情况下也能取得较好的预测效果。然而,当应用于大规模复杂非线性时间序列时,效果很差。因此,研究人员更加关注机器学习或深度学习的时间序列预测方法。主要有以下六类:
- 模糊时间序列预测方法:模糊时间序列预测可以解决非线性问题,是预测分析领域的研究热点之一。它通常用于小数据集或缺失值数据集的时间序列预测
- 人工神经网络(ANN):它是一种数据驱动的预测模型。具有较强的自组织、自学习能力和良好的非线性逼近能力。因此,它受到了时间序列预测领域研究人员的广泛关注。它已成为非线性建模的有效工具之一。
- 高斯过程回归:它是一种基于贝叶斯神经网络的机器学习方法,是一组随机变量,集合中任意数量的随机变量服从联合高斯分布,并且唯一地由均值函数和协方差函数决定。
- 支持向量机(Support Vector Machine, SVM):是Vapnik团队首先提出的一种重要的分类算法,对于小样本和非线性问题具有独特的优势。它广泛应用于分类、模式识别和时间序列预测等领域的研究。支持向量机主要的优点是数据分类,适用于小样本数据集,简化了分类和回归问题,并且计算复杂度可以认为决定。
- 递归神经网络(RNN):以序列数据为输入,按照序列的演化方向递归地进行,所有节点在一条链中连接。它擅长处理序列和相关数据,广泛应用于模式识别和时间序列预测领域。RNN对时间序列更敏感,在数据传输中具有记忆性。
为了解决梯度消失和梯度爆炸的问题,提出了一种长短期记忆(LSTM)模型。它是一种特殊的RNN,通过在输入和反馈之间产生“保留效应”,有效地避免了梯度色散现象,综合LSTM模型的性能通常优于单一模型。 - Transformer(变压器):Transformer模型采用了自注意机制代替了RNN的顺序结构,使得模型可以并行训练并获得全局信息,它目前也用于时间序列预测。它可以很好地捕捉时间序列之间的复杂依赖关系,并且可以并行计算。但是,该方法不能捕获序列间的远距离信息,计算量大。基于变压器的预测模型体系结构如下图所示。
混合预测模型
随着大数据的发展,大量的时间序列数据正在不同领域迅速产生,数据是复杂的非线性数据,服从不同的分布模式。当使用简单的统计模型或机器学习模型处理复杂的时间序列数据时,性能较差,泛化能力较弱。然而,混合模型在精度和泛化能力方面都优于单一模型。混合预测模型分为三类:
- 基于ARMA和机器学习的混合模型
- 基于ARIMA和Machine的混合模型
- 基于机器学习的混合模型:例如结合CNN与SVM的混合模型、CNN-LSTM混合模型等
研究意义
随着大数据时代的发展,在各个领域产生了越来越多的时间序列数据,由于大规模时间序列数据的复杂分布模式,越来越多的研究人员基于混合预测模型捕捉复杂的时间序列分布模式,以获得更好的预测精度和性能。本文为时间序列分析方法的研究提供了数据基础,它促进了时间序列分析领域的进一步发展。
时间序列建模的主要挑战是时间序列数据复杂性高、预测模型精度低、泛化能力差。本文涵盖现有的时间序列数据建模方法,并对其进行分类。此外,还对不同的预测方法进行了比较,分析提供了时间序列预测的一些潜在方向。
总结
这周选取了关于时间序列数据预测的文献进行阅读,了解时间序列数据的概念和相关的一些预测方法,刚接触这种类型的文献,现主要梳理研究思路,清楚文献的结构和思路,对于模型和代码学习部分,之后会加强这方面的学习。