ICLR 2023 时间序列预测(Time series prediction)论文汇总

【1】Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting
论文链接https://openreview.net/forum?id=vSVLM2j9eie 
代码链接https://github.com/Thinklab-SJTU/Crossformer
关键词Transformer, multivariate time series forecasting, deep learning
研究方向多变量时间序列预测
一句话总结全文提出了Crossformer,该模型明确地利用跨维度依赖性进行多变量时间序列预测。

研究内容

        最近,已经提出了许多用于多元时间序列 (MTS) 预测的深度模型。特别是,基于 Transformer 的模型显示出巨大的潜力,因为它们可以捕获长期依赖性。然而,现有的基于 Transformer 的模型主要侧重于对时间依赖性(跨时间依赖性)进行建模,但往往忽略了不同变量之间的依赖性(跨维度依赖性),这对于 MTS 预测至关重要。为了填补空白,我们提出了 Crossformer,这是一种基于 Transformer 的模型,利用跨维度依赖性进行 MTS 预测。在 Crossformer 中,输入的 MTS 通过 Dimension-Segment-Wise (DSW) 嵌入嵌入到二维向量数组中,以保留时间和维度信息。然后提出了两阶段注意(TSA)层来有效地捕获跨时间和跨维度的依赖性。利用 DSW 嵌入和 TSA 层,Crossformer 建立了一个分层编码器-解码器 (HED),以使用不同尺度的信息进行最终预测。六个真实世界数据集的广泛实验结果表明 Crossformer 相对于以前的最先进技术的有效性。

【2】MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting
论文链接https://openreview.net/forum?id=zt53IDUR1U 
代码链接https://github.com/wanghq21/MICN
关键词long-term forecasting, local and global context, multi-branch architecture, different potential patterns
研究方向时间序列预测
一句话总结全文新的建模视角、新的预测框架、线性复杂性和最佳性能。

研究内容

        最近,基于 Transformer 的方法在长期序列预测领域取得了惊人的性能,但计算全局相关性的注意力机制具有很高的复杂性。而且它们不允许像 CNN 结构那样对局部特征进行有针对性的建模。为了解决上述问题,我们建议结合局部特征和全局相关性来捕捉时间序列的整体视图(例如,波动、趋势)。为了充分利用时间序列中的底层信息,采用多尺度分支结构分别对不同的潜在模式进行建模。每个模式都通过下采样卷积和等距卷积分别提取局部特征和全局相关性。除了更有效之外,我们提出的称为多尺度等距卷积网络 (MICN) 的方法在具有合适卷积核的序列长度线性复杂度方面更有效。我们在六个基准数据集上的实验表明,与最先进的方法相比,MICN 对多变量和单变量时间序列的相对改进分别为 17.2% 和 21.6%。

【3】A Primal-Dual Framework for Transformers and Neural Networks

论文链接https://openreview.net/forum?id=U_T8-5hClV 

关键词attention, transformer, neural network, support vector regression, primal, dual
研究方向时间序列预测
一句话总结全文文章表明自注意力对应于从支持向量回归问题导出的支持向量扩展,并提供了从流行的神经网络层构建新注意力机制的原则框架。

研究内容

        自注意力是 Transformer 在序列建模任务中取得显着成功的关键,包括自然语言处理和计算机视觉中的许多应用。与神经网络层一样,这些注意力机制通常是通过启发式方法和经验开发的。为了提供在 Transformer 中构建注意力层的原则性框架,我们表明自注意力对应于从支持向量回归问题导出的支持向量扩展,其原始公式具有神经网络层的形式。使用我们的框架,我们推导出了在实践中使用的流行注意力层,并提出了两个新的注意力:1)从批量归一化层派生的批量归一化注意力(Attention-BN)和 2)从使用较少的训练数据来拟合 SVR 模型。我们通过经验证明了 Attention-BN 和 Attention-SH 在减少头部冗余、提高模型准确性以及提高模型在包括图像和时间序列分类在内的各种实际应用中的效率方面的优势。

【4】Scaleformer: Iterative Multi-scale Refining Transformers for Time Series Forecasting
论文链接https://openreview.net/forum?id=sCrnllCtjoE 
代码链接https://github.com/BorealisAI/scaleformer
关键词Time-series forecasting, Transformers
研究方向时间序列预测
一句话总结全文本文提出一个新的框架来改进最近使用转换器进行时间序列预测的最新技术。

研究内容

        时间序列预测的性能最近通过引入 Transformer 得到了极大的改善。在本文中,我们提出了一个通用的多尺度框架,可应用于最先进的基于 transformer 的时间序列预测模型(FEDformer、Autoformer 等)。通过使用共享权重、架构调整和专门设计的归一化方案在多个尺度上迭代改进预测时间序列,我们能够以最小的额外计算开销实现显着的性能改进。通过详细的消融研究,我们证明了我们提出的架构和方法创新的有效性。此外,我们在各种公共数据集上的实验表明,所提出的方法优于相应的基线。根据变压器架构的选择,我们的多尺度框架可将均方误差降低 5.5% 至 38.5%。

【5】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
论文链接https://openreview.net/forum?id=Jbdc0vTOcol
代码链接https://github.com/yuqinie98/PatchTST
关键词time series, transformer, forecasting, channel-independence, self-supervised learning, representation learning
研究方向多元时间序列预测和自监督表示学习
一句话总结全文通道无关的补丁时间序列转换器非常适合长期预测和表示学习。

研究内容

        我们提出了一种基于 Transformer 的模型的有效设计,用于多元时间序列预测和自监督表示学习。它基于两个关键组成部分:(i)将时间序列分割成子系列级别的补丁,作为 Transformer 的输入标记; (ii) 通道独立性,其中每个通道包含一个单变量时间序列,该时间序列在所有序列中共享相同的嵌入和 Transformer 权重。补丁设计自然有三方面的好处:局部语义信息保留在嵌入中;给定相同的回溯窗口,注意图的计算和内存使用量以二次方式减少;并且该模型可以参加更长的历史。与基于 SOTA Transformer 的模型相比,我们的通道独立补丁时间序列 Transformer (PatchTST) 可以显着提高长期预测准确性。我们还将我们的模型应用于自我监督的预训练任务,并获得了出色的微调性能,优于大型数据集上的监督训练。将在一个数据集上执行的屏蔽预训练转移到其他数据集也会产生 SOTA 预测准确性。

【6】Effectively Modeling Time Series with Simple Discrete State Spaces
论文链接https://openreview.net/forum?id=2EpjkjzdCAa 
代码链接https://openreview.net/attachment?id=2EpjkjzdCAa&name=supplementary_material
关键词time series, forecasting, state-space models, time series classification
一句话总结全文我们提出了 SpaceTime,这是一种深度状态空间时间序列模型,通过提高表达能力、预测灵活性和训练效率,在预测和分类基准方面取得了最先进的结果。

研究内容

        时间序列建模是一个公认的问题,它通常需要方法 (1) 表达地表示复杂的依赖关系,(2) 预测长期视野,以及 (3) 有效地训练长序列。状态空间模型 (SSM) 是时间序列的经典模型,之前的工作将 SSM 与深度学习层相结合以实现高效的序列建模。然而,我们发现这些先前方法的根本局限性,证明它们的 SSM 表示不能表达自回归时间序列过程。因此,我们引入了 SpaceTime,这是一种改进所有三个标准的新状态-空间时间序列架构。为了表现力,我们提出了一种基于伴随矩阵的新 SSM 参数化——离散时间过程的规范表示——它使 SpaceTime 的 SSM 层能够学习理想的自回归过程。对于长期预测,我们引入了配套 SSM 的“闭环”变体,它使 SpaceTime 能够通过生成自己的逐层输入来预测许多未来的时间步长。为了进行高效的训练和推理,我们引入了一种算法,该算法可以减少带有伴随矩阵的前向传递的内存和计算。

【7】Learning Fast and Slow for Online Time Series Forecasting
论文链接https://openreview.net/forum?id=q-PbpHD3EOk 
代码链接https://github.com/salesforce/fsnet
关键词:Time Series, Data augmentation, Representation Learning, Deep Learning, Reinforcement Learning
一句话总结全文本文提出了一种基于库普曼算子理论的新模型,用于预测具有分布变化的时间序列。

研究内容

        尽管最近深度学习在时间序列预测方面取得了成功,但这些方法无法扩展到许多数据按顺序到达的现实世界应用程序。众所周知,实时训练深度神经预测器具有挑战性,因为它们适应非静止环境和记住旧知识的能力有限。我们认为,深度神经网络的快速适应能力至关重要,成功的解决方案需要有效地处理新模式和重复模式的变化。在这项工作中,受互补学习系统 (CLS) 理论的启发,我们提出快速和慢速学习网络 (FSNet) 作为一种新颖的框架来应对在线预测的挑战。特别是,FSNet 通过动态平衡对最近变化的快速适应和检索类似的旧知识来改进缓慢学习的主干。 FSNet 通过两个新颖的互补组件之间的交互实现此机制:(i) 支持从各个层快速学习的每层适配器,以及 (ii) 支持记忆、更新和召回重复事件的关联记忆。对真实和合成数据集的大量实验验证了 FSNet 对新模式和重复模式的有效性和稳健性。

【8】Koopman Neural Operator Forecaster for Time-series with Temporal Distributional Shifts
论文链接https://openreview.net/forum?id=kUmdmHxK5N 
代码链接https://github.com/google-research/google-research/tree/master/KNF
关键词:Time series forecasting, Temporal distributional shifts, Koopman Theory

研究内容

        时间分布的变化,随着时间的推移,潜在的动态变化,经常发生在现实世界的时间序列中,并对深度神经网络 (DNN) 提出了根本性的挑战。在本文中,我们提出了一种基于 Koopman 理论的新型深度序列模型用于时间序列预测:Koopman Neural Forecaster (KNF),它利用 DNN 学习线性 Koopman 空间和所选测量函数的系数。 KNF 施加适当的归纳偏差以提高对分布变化的鲁棒性,既使用全局运算符来学习共享特征,又使用本地运算符来捕获不断变化的动态,以及专门设计的反馈回路,以随着时间的推移不断更新学习到的运算符以快速变化行为。我们证明,与替代方案相比,KNF 在显示出分布变化的多个时间序列数据集上实现了卓越的性能。

【9】Robust Multivariate Time-Series Forecasting: Adversarial Attacks and Defense Mechanisms
论文链接https://openreview.net/forum?id=ctmLBs8lITa 
代码链接https://github.com/awslabs/gluonts/tree/dev/src/gluonts/nursery/robust-mts-attack
关键词:Multivariate Timeseries Forecasting
研究方向多变量时间序列预测
一句话总结全文本文研究了对多变量预测模型的对抗性攻击。

研究内容

        这项工作研究了对抗性攻击对多变量概率预测模型和可行防御机制的威胁。我们的研究发现了一种新的攻击模式,它通过对少数其他时间序列的过去观察进行战略性的、稀疏的(不可察觉的)修改,对目标时间序列的预测产生负面影响。为了减轻此类攻击的影响,我们制定了两种防御策略。首先,我们将先前开发的分类随机平滑技术扩展到多变量预测场景。其次,我们开发了一种对抗性训练算法,该算法学习创建对抗性示例,同时优化预测模型以提高其对这种对抗性模拟的鲁棒性。对真实世界数据集的大量实验证实,与基线防御机制相比,我们的攻击方案是强大的,我们的防御算法更有效。

【10】Deep Declarative Dynamic Time Warping for End-to-End Learning of Alignment Paths
论文链接https://openreview.net/forum?id=UClBPxIZqnY 
关键词:implicit differentiation, sequence matching, time series, visual localization, music

一句话总结全文该论文提出了一种新颖的可微分动态时间规整算法。该方法优于现有变体,因为它在时间序列表示之间输出可学习的扭曲路径。(时间对齐)

研究内容:

本文讨论了学习时间序列数据的端到端模型,其中包括通过动态时间规整 (DTW) 进行的时间对齐步骤。现有的可微 DTW 方法要么通过固定的扭曲路径进行微分,要么对用于解决 DTW 问题的递归步骤中的最小算子应用可微松弛。相反,我们提出了一个基于双层优化和深度声明网络的 DTW 层,我们将其命名为 DecDTW。通过将 DTW 表述为连续的、不等式约束的优化问题,我们可以使用隐式微分计算最优对齐(相对于基础时间序列)的解的梯度。这个公式的一个有趣的副产品是 DecDTW 输出两个时间序列之间的最佳扭曲路径,而不是软近似,可从 Soft-DTW 恢复。我们表明,此属性对于在最佳对齐路径本身上定义下游损失函数的应用程序特别有用。这自然会发生,例如,当学习提高预测对齐与地面实况对齐的准确性时。我们在两个这样的应用程序上评估 DecDTW,即音乐信息检索中的音频到乐谱对齐任务和机器人技术中的视觉位置识别任务,展示了两者的最新成果。

详细相关论文总结请查看:ICLR 2023丨时间序列(Time Series)论文汇总

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值