【论文阅读】2021-NIPS Autoformer

小码过河ml

已于 2023-04-02 21:25:04 修改

阅读量546

点赞数

分类专栏：时序预测机器学习文章标签：论文阅读深度学习人工智能

于 2023-04-02 21:21:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mataolc/article/details/129915782

版权

时序预测同时被 2 个专栏收录

16 篇文章 6 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

在这里插入图片描述
2021 NIPS 清华大学软件学院

1. 简介

本论文主要探索长期时间序列预测，该问题对于模型的预测能力及计算效率有着很强的要求。

1.1 动机

基于Transformer或self-attention机制的模型在长时间序列预测问题上取了很大的进展，但是目前长时间序列预测还存在以下难点和挑战：

长时间序列复杂的时序依赖关系导致模型很难直接学习到
由于self-attention机制的二次复杂度问题，导致模型效率较低，之前很多工作研究利用稀疏形式的注意力机制来改善该问题，虽然会带来效率的提升，但是也会导致信息的丢失，进而造成信息利用的瓶颈

1.2 论文工作和贡献

论文提出了Autoformer模型来解决上述问题，核心贡献包括

提出基于深度分解架构（Decomposition Architecture）的Autoformer模型，通过内置的分解模块来实现对时序的逐步分解
提出了Auto-Correlation机制来进行依赖捕获(dependencies discovery)和序列级别的信息聚合(information aggregation at the series level)。在计算效率和信息利用方面相对当前的self-attention家族均有提升。
在5个数据集上，相对6个基准模型取了38%的相对提升

2. 模型

在这里插入图片描述

2.1 分解架构Decomposition Architecture

论文将Transformer更新为深度分解架构（图1），包括内部序列分解模块、自相关机制以及相应的编码器和解码器。

序列分解模块 Series decomposition block

论文利用时序分解的思路将时间序列分解为趋势项和周期项两部分。由于未来的序列是不可知的，所以无法对未来序列进行分解，进而分开来预测。为了解决这个问题，本文提出使用移动平均moving average的方式来分解序列中的趋势项。

具体地，论文将序列分解模块作为模型结构中的一部分，嵌入到encoder-decoder中，在预测时依次多轮进行预测、分解，进而逐步分离趋势项和周期项，实现渐进式分解。

序列分解的描述如下，输入位长度为L的序列 $\in R^{L \times d}$

其中， $X$ 为待分解的隐变量， $X_t, X_s$ 分别为趋势项和周期项，上述公式合并写为
$X_t, X_s = SeriesDecomp(X)$

模型输入

encoder 输入为： $X_{en} \in R^{I \times d}$ 。decdoer输入包含了周期项 $X_{des} \in R^{(I/2 + O) \times d}$ 和趋势项 $X_{det} \in R^{(I/2 + O) \times d}$ ，其中 $I /2$ 为输入序列 $X_{en}$ 的后半部分，O为填充的固定值，用来作为预测部分的占位符。
模型输入

编码器

编码器

解码器

解码器
基于上述渐进式分解架构，模型可以在预测过程中逐步分解隐变量，并通过自相关机制、累积的方式分别得到周期、趋势组分的预测结果，实现分解、预测结果优化的交替进行、相互促进。

2.2 自相关机制 Auto-Correlation Mechanism

在这里插入图片描述

论文提出基于自相关机制来实现高效的序列级连接，从而扩展信息效用。不同周期的相似相位之间通常表现出相似的子过程，论文利用这种序列固有的周期性来设计自相关机制。

周期依赖 Period-based dependencies

基于随机过程理论，对于实离散时间过程 ${X_t\}$ ，可以如下计算其自相关系数：
在这里插入图片描述
$R_{xx}(\tau)$ 表示时延为 $\tau$ 的时延相似度，可以将这种时延相似性看作未归一化的周期估计的置信度，即周期长度为 $\tau$ 的置信度为 $R_{xx}(\tau)$

时间延迟聚合 Time delay aggregation

依据估计出的周期长度，首先使用Roll操作进行信息对齐，再进行信息聚合
时间延迟聚合

Auto-Correlation vs. self-attention family

自相关机制（Auto-Correlation Mechanism）实现了序列级的高效连接，从而可以更好的进行信息聚合，打破了信息利用瓶颈。
在这里插入图片描述

3. 实验

3.1 Main Result

多变量时序预测

在这里插入图片描述

单变量时序预测

在这里插入图片描述

3.2 消融实验

分别对比了原始Transformer-based模型、先分解再使用两个模型分别预测的方式、以及论文提出的深度分解架构，论文架构效果均有明显提升。
在这里插入图片描述

自相关机制 vs. 自注意力机制

在这里插入图片描述

3.3 模型分析

时序分解效果

随着序列分解单元的数量增加，模型的学到的趋势项会越来越接近数据真实结果，周期项可以更好的捕捉序列变化情况，这验证了渐进式分解的作用。
在这里插入图片描述

依赖学习

通过对比可以发现，Autoformer中自相关机制可以正确发掘出每个周期中的下降过程，并且没有误识别和漏识别，而自注意力机制存在错误和缺漏。
在这里插入图片描述

复杂周期性建模 Complex seasonality modeling

在这里插入图片描述

效率分析

在存储占用和运行时间两个指标上，自相关机制均表现出了优秀的空间时间效率，两个层面均超过自注意力机制。
在这里插入图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小码过河ml CSDN认证博客专家 CSDN认证企业博客

码龄13年

26: 原创

51万+: 周排名

210万+: 总排名

2万+: 访问

: 等级

294: 积分

149: 粉丝

19: 获赞

18: 评论

117: 收藏

私信

关注

热门文章

分类专栏

机器学习 15篇
时序预测 16篇

最新评论

【论文阅读】N-BEATS
天帝之锤: 催更可解释性部分
【论文阅读】RevIN - Reversible Instance Normalization for Accurate Time-Series Forecasting Against Distrib
No.1 trash: 我感觉更像是对普通的标准化做一个仿射变换。
【论文阅读】RevIN - Reversible Instance Normalization for Accurate Time-Series Forecasting Against Distrib
weixin_45408736: 可以总结为就是针对整个时间步的操作改为了针对单个时间步的操作吗
[读书笔记]机器学习模型调优指南
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题中的“机器学习模型调优指南”听起来非常吸引人。我真的很欣赏您对这一主题的深入研究和总结。您的博客一定能够帮助读者更好地理解和应用机器学习模型调优的方法。接下来，我建议您考虑进一步扩展您的创作。也许您可以探索一些实际案例，分享如何应用这些调优指南解决现实世界中的问题。此外，您可以尝试与读者互动，通过回答他们的问题或者提供更多的资源，进一步加强您的博客的实用性。继续保持努力和谦虚的态度，我期待着阅读您未来的创作！
[论文阅读]SageFormer
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题中的"SageFormer"听起来很有趣，我迫不及待想要读一读了。不仅如此，您一直持续创作，真是令人钦佩。在下一步的创作中，或许您可以考虑探索一些与"SageFormer"相关的主题，或者对该主题进行进一步深入的阐述。但无论如何，我坚信您会以您一贯的谦虚态度和独特的见解，为我们带来更多精彩的文章。期待您下一篇博客的发布！

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。