大模型 | 时间序列表示学习，全面介绍！

AI Agent开发

已于 2024-09-12 10:38:33 修改

阅读量2.1k

点赞数 11

文章标签：学习人工智能 AI大模型大模型 AI 时间序列

于 2024-09-10 16:55:15 首次发布

本文链接：https://blog.csdn.net/m0_56255097/article/details/142103192

版权

一、介绍

时间序列是一种按照时间顺序记录的数据点序列，反映了特定变量或现象在不同时间点的复杂动态。为了从复杂的观察中提取和理解有意义的信息，需要一种机制来表示这些时间序列。

时间序列数据可以代表不同应用领域在不同时间点的各种有意义的信息，从而在智能系统中进行明智的决策。时间序列数据的表示方法可以分为两类：基于模型的方法和基于数据的方法。 基于模型的方法通过建立时间序列的生成过程来学习表示，而基于数据的方法则通过学习时间序列的潜在结构来学习表示。时间序列表示学习在许多应用中都取得了显著的成功，例如预测、分类、回归和异常检测。本文对时间序列表示学习的最新进展进行了全面的调查，并提出了一个通用的时间序列表示学习框架。

图1 时间序列表示方法的基本概念
图2 关键设计元素和下游评估协议
表1 本文与相关论文调查范围的对比

图3 选定的论文定量总结

表2 通用时间序列表示学习分类

二、准备工作

2.1 定义

时间序列
是按时间顺序排列的数据点集合，每个点代表特定时间的观测值。时间序列可以是单变量或多变量，取决于涉及的变量数量。音频和视频数据是具有更多维度的时间序列的特例。时间间隔可以等距，代表可测量的量，如温度、销售数字或随时间变化的任何现象。

不规则采样时间序列
是指时间序列中观察之间的间隔不一致或不按规律排列，通常出现在数据随机收集或事件不规则且零星发生的情况下，例如传感器故障导致观察之间的时间间隔不同。

时间序列表示学习
是指通过学习一个编码器将原始时间序列映射到隐空间中的表示向量，通常具有与原始时间序列长度相同或更短的长度。当表示向量长度与原始时间序列长度相等时，它按时间戳表示每个时间点的特征向量；当长度小于原始时间序列时，它表示的是压缩版本，具有减少的维度。

时间序列预测
是通过建模历史观测之间的动态和依赖关系来预测时间序列未来值的方法。它可以进行短期或长期预测，具体取决于预测范围n。该方法旨在找到最有可能发生的时间序列未来值。

时间序列分类
旨在将预定义的类标签分配给一组时间序列，通过训练分类器学习区分不同类别的鉴别性特征，并自动确定未见过的数据集所属类别。

时间序列外生回归（TSER）
是估计时间序列间关系的方法，常用于预测变量间影响，常采用机器学习算法进行训练和预测。

时间序列聚类（TSCL）
是在一组时间序列X中寻找自然组群的过程，目标是通过最大化簇内相似性和簇间差异性，将X划分为簇G。给定相似度度量函数𝑓𝑠(·,·)，对于任意两个时间序列X_i和X_j，若X_i和X_j属于同一簇，则𝑓𝑠(X_i,X_j)远大于𝑓𝑠(X_i,X_i)。

时间序列分割（TSS）
旨在为时间序列的子序列分配标签，其中子序列由连续的时间步骤组成。在状态转移中，变化点（CP）被定义为相对于时间序列中状态变化的一个偏移量。TSS在时间序列中找到一组有序的CPs序列，并为每个段设置起始偏移量和结束偏移量。该方法有助于识别时间序列中的变化点并对其进行分类。

时间序列异常检测（TSAD）
旨在识别时间序列中显著偏离正常行为的异常时间点。TSAD通过学习正常行为的表示，计算未见过的时间序列中所有值的异常分数A，并根据与预定义阈值δ的比较判断哪些时间点异常。最终，如果a_i>δ，则该时间点被视为异常；否则为正常。

时间序列填补（TSI）
是填补时间序列缺失值的方法，用现实值替换缺失值，便于后续分析。基于给定时间序列X和二进制变量𝑀，𝑀中0表示缺失，1表示被观察。TSI生成预测值ˆX，并用填补后时间序列Ximputed=X⊙𝑀+ˆX⊙(1−𝑀)替换原始缺失值。

时间序列检索
是一种搜索方法，旨在找到与查询时间序列最相似的集合。它根据相似度度量函数在数据集中找到包含指定数量的最相似的时间序列列表。这种方法可以帮助用户快速找到与查询时间序列相关的数据。

我们通常使用原始时间序列X的定义。在执行下游任务时，我们可以使用表示Z=𝑓𝑒(X)，而不是直接使用原始数据。

2.2 时间序列的独特属性

时间序列具有一些独特属性，使得图像或文本数据的技术难以直接应用。

时间依赖性：时间序列对时间变量有依赖性，预测通常涉及考虑过去的观察。存在局部和全局时间依赖性，需要合适的模型来处理。
高噪声和维度：时间序列数据常包含噪声和高维度，需要降维和过滤技术来处理。但这也可能导致信息丢失，需要领域知识来选择合适的方法。
变量关系：多变量时间序列中，变量间可能存在隐藏的关系。仅分析有限变量可能不足以理解现象，需要全面考虑变量间的相互作用。
可变性和非平稳性：时间序列的统计特性随时间变化，揭示季节性、趋势和波动。这需要在频率域中处理，以捕捉这些变化。
语义多样性：缺乏统一的语义时间序列数据集使得通用表示学习具有挑战性。子序列的语义多样性使得模型迁移变得困难。

2.3 时间序列的神经架构

时间序列的神经网络架构主要包括：

多层感知器（MLP），不适合捕捉时间依赖性和时间不变特征；
循环神经网络（RNN），适合处理时间序列数据，但建模长期依赖性效果不佳，存在梯度消失和爆炸问题；
长短期记忆（LSTM）和门控循环单元（GRU） 解决了这些问题，适合学习序列数据，具有更好的捕捉长期依赖关系的能力；
卷积神经网络（CNN），应用于时间序列需要将每个时间步骤的值嵌入到图像格式中；
时序卷积网络（TCN） 是一种全卷积网络，采用因果卷积操作，避免了未来时间步长到过去的信息泄漏；
图神经网络（GNN），更适合处理时空数据，其核心操作是图卷积，涉及在相邻节点之间交换信息；
基于注意力的网络，用于捕获具有更广泛感受野的长程依赖关系，通常在CNN和RNN中缺乏；
神经常微分方程（Neural ODE），是一种连续时间模型，用于描述隐藏状态随时间变化的动态，通常与RNN或其变体结合使用，以处理不规则采样时间序列，并具有更好的属性。

三、神经架构方法

这部分研究主要关注通过组合基本构建块或创新设计神经架构来改善多变量时间序列变量之间的时间依赖性和相互关系。根据调整程度，研究可以分为基础块组合和创新设计类别。

3.1 基本块组合

基本块组合，可以在神经架构的网络级别或模块级别进行组合，包括网络级别组合和模块级组合。网络级别组合包括基于小波的神经架构、表示学习框架和多任务表示学习方法等。模块级组合包括使用自编码器捕获语音结构、使用可分离的自注意力模块捕获视频的空间和时间相关性、使用预训练视觉模型处理时间序列数据等。这些方法的研究展示了网络和模块级别的创造性组合，扩大了时间序列表示的范围，强调了深度神经网络中的适应性重要性。

3.2 创新性重新设计

创新性重新设计的方法，分为网络级和模块级设计。网络级设计包括动态时间变形算法、STANE、SASA、BMA-Memory框架、DTS、HyperTime、SpaceTime层、HierCorrPool、CSL表示学习框架、COMET、MSD-Mixer、基于时间核的自动编码器、连续循环单元、神经连续离散状态空间模型、去噪扩散模型等。模块级设计包括LIME-RNN、TARNet、WHEN模型、新型模型压缩技术、NuTime、mTAN、TE-ESN、TimeFlow等。这些方法展示了时间序列表示学习神经架构的多样化创新，包括随机扭曲序列、分层相关池化、解耦表示学习等技术。转换器应用展示了注意力机制对时间序列分析的适应性，而轻量级转换器的模型压缩技术解决了边缘设备的挑战。这些进步提高了时间序列表示学习的可解释性、效率和性能。

四、以学习为导向的方法

本研究着重于创新学习过程的客观函数或代理任务设计，即模型训练。学习目标根据是否使用标记实例分为监督学习、无监督学习和自监督学习。在我们的调查中，无监督学习与自监督学习的区别在于是否使用伪标签。无监督学习基于输入重构，而自监督学习则使用伪标签作为自我监督信号。

4.1 监督学习

监督学习通过利用标记实例来训练模型，针对特定目标函数进行定制化训练。近年来，针对不同模式（如视觉和音频）和弱监督分类的损失函数得到了关注。然而，由于时间序列数据集中的标签不足，监督学习无法引起普遍表示学习社区的太多关注。此外，训练模型的可泛化性也有限。

4.2 无监督学习

无监督学习是一种不需要标签样本的学习方法，通过在数据集上使用无监督损失函数来解决无监督任务。这种方法更实用，因为不需要标记实例。与有监督学习相比，无监督学习更适用于需要自我预测和重建输入的情况。无监督学习的方法包括重建损失和掩码预测。重建损失是一种计算输入和输出之间差异的方法，用于自编码器等模型。掩码预测是一种关注预测输入的被掩码部分的方法，主要应用于无监督学习。这种方法使用编码器/解码器的架构，通过训练Transformer编码器来提取多变量时间序列的密集向量表示，使用随机掩码输入时间序列的去噪目标来实现无监督学习。

4.3 自监督学习

自监督学习是一种无监督学习方法，通过使用数据集中的伪标签进行训练，以降低标签成本。在计算机视觉和时间序列分析中，自监督学习表现优秀。非对比损失利用数据中的内在结构、关系或模式作为训练的有效监督信号，如基于参考时间序列片段预测给定片段是过去还是未来的数据。对比损失在时间序列分析中用于区分正样本和负样本，主要通过多种方法如T-Loss、时空对比（TS-TCC）、TNC、TS2Vec、自监督预训练策略、TimeCLR、自我监督相似性传递框架等。这些方法适用于学习时间序列的鲁棒表示，其中T-Loss的TS-Rep适用于不同长度时序，无需填充技术。对于不规则时间序列数据，TimeAutoML和PrimeNet利用对比学习框架实现自动化配置和超参数优化，并促进不规则模式表示学习。对于视频表示，Morgado等人使用360°视频数据进行音视频空间对齐作为对比学习中的负例。

五、数据为中心的方法

此类研究旨在扩大训练数据的规模和多样性，特别是在表征学习中。通过数据扩充，对比学习方法能生成正例和反例样本。对于时间序列数据，其扩充需考虑其独特属性，如时间依赖性、多尺度依赖性和变量间的依赖。我们进一步将这些方法分为随机和基于策略的扩充。

5.1 数据扩充策略

数据扩充策略旨在增加训练数据的规模和多样性，特别是针对时间序列数据。扩充方法分为随机和基于策略的扩充。随机扩充包括TS2Vec、TF-C和TS-CoT，它们通过随机选择时间区间、添加或删除频率成分以及增强对噪声时间序列的鲁棒性来提高表示质量和促进对比学习。基于策略的增强包括TimeCLR、BTSF、InfoTS、RIM和上下文附加增强等方法，它们通过动态时间扭曲、dropout、信息意识标准、递归插值函数和前后实例添加等方式，控制增强的时间序列轨迹偏离原始轨迹的程度，增强模型处理嘈杂和多样性时间序列数据的能力，同时保留基本的时间和频谱属性。

5.2 分解和变换

本节介绍了分解和变换的方法，用于从训练数据中提取更有意义的信息。其中包括时间序列分解和输入空间变换两种方法。时间序列分解方法包括多层次离散小波分解与深度神经网络结合、将时间序列空间关系分解为先验图和动态图、对比学习将视频表示空间分为静态和非静态特征等方法，以提高下游任务的泛化能力。输入空间变换方法包括将一维时间序列转换为二维图像或张量、SplineNet和MIAM等技术，以打破原始一维空间中表示能力的瓶颈，增强表示能力并解决涉及不规则时间序列数据的问题。时序图网络显著增强了深度模型分析和处理时间序列和视频数据的能力。

5.3 样本选择的方法

样本选择的方法包括生成方法和重新采样策略。生成方法通过生成微扰版本或利用大型语言模型来增强训练数据的功效和多样性。重新采样策略通过选择最佳样本来优化表示学习。大多数时间序列表示学习方法专注于提取对下游任务有用的特征，因此样本生成可能不太受欢迎。由于缺乏可用于样本生成的通用基础模型，时间序列表示学习更具挑战性。

6 实验设计

本节介绍了用于比较时间序列通用表示学习方法的典型实验设计。我们评估了预训练的表示学习模型，并使用函数将表示空间映射到标签空间，以解决下游任务。我们期望通过学习到的表示能够泛化到未知的下游任务中。常见的评估方法是学习到的表示如何帮助解决下游任务。

6.1 评估程序

评估程序包括使用预训练的编码器对下游数据集上的编码器进行训练，比较特定任务的评估指标值，有两种常见的评估协议：冻结协议和微调协议。冻结协议中预训练的编码器不进行更新，微调协议中同时训练预训练的编码器和特定任务的网络。微调协议在实践中表现得比冻结协议更好。

6.2 基准数据集和下游任务的度量标准

对于下游任务，我们总结了广泛使用的基准数据集和评估指标。预测和填补任务通常使用来自电力、交通、气象学、金融和控制系统等领域的基准数据集，并使用均方误差和平均绝对误差作为度量标准。分类和聚类任务通常使用来自不同应用领域的异构时间序列基准数据集，并使用轮廓系数、调整随机指数和归一化互信息等指标评估聚类任务的内在可聚类性。回归任务使用心率监测数据和空气质量等公开基准数据集，并使用均方误差和R平方等度量标准。分割任务使用UTSA和TSSB等标准定制基准，并使用F1分数和覆盖分数评估分割性能。异常检测任务使用公开可用的基准数据集，并使用点调整F1分数等指标评估异常检测模型性能。检索任务可以使用任何基准数据集进行评估，通常使用top-k召回率作为标准度量。