【文章学习系列之模型】DLinear

原创已于 2023-05-25 21:45:49 修改

· 3.9k 阅读

9 ·

版权

文章标签：

#学习 #深度学习 #人工智能 #笔记

于 2023-05-09 13:22:31 首次发布

深度学习零散记录专栏收录该内容

16 篇文章

订阅专栏

本章内容

文章概况
模型流程
实验
总结

文章概况

《Are Transformers Effective for Time Series Forecasting?》是2023年发表于AAAI上的一篇文章。该文章以“Transformer在时序预测中是否有效”为论点展开讨论，并提出一种非Transformer系列的简易网络模型。

论文链接
 代码链接

模型流程

在这里插入图片描述
该模型主体思路借鉴了ARIMA的分解思路，将原先时序数据分解为趋势项和残差项，并分别经过全连接层，最终求和获得预测结果。其中趋势项使用是对原始数据做平均池化所得，残差项是原始数据和池化所得数据的差值。

作者认为该模型具有四点优势：
1.路径短，捕获的长短期关系效果好
2.更少的内存、参数和更快的推理速度
3.结构简单，可解释性探索相对容易
4.超参数少，不需要过多地针对参数进行调优

实验

本文的实验部分主要针对Transformer在时序预测中是否有效展开讨论。

定量结果

在这里插入图片描述

同一组实验中，红色为最佳结果，蓝色为第二佳结果，可以看出Dlinear占据着更多的优势结果，总体而言优于前人已有的模型方法。因此，Transformer系列模型在时序预测中并不如简单的全连接模型有效。

定性结果

在这里插入图片描述
文中对三种数据集上的预测结果进行可视化。很显然发现Transformer系列模型无法捕捉这些数据的规律，预测结果远不如Dlinear。这从预报任务的多样性说明了Transformer系列模型的不足。

其他对比

该部分作者针对以下几个方面展开讨论。
回顾窗口的大小： 回顾长度越长，Transformer系列模型效果保持不变或逐渐恶化，Dlinear则显著提高。
训练的数据量： 多数情况下，减少数据集降低了误差，表明在数据达到一定规模后，数据集大小并不是限制模型预测能力的因素。
不同的编码策略： Transformer系列模型的核心模块的各不相同，最佳编码策略的选取也不尽相同。
模型效率： 和普通Transformer模型相比，各类衍生模型加入了众多的创新元素，虽然一定程度上有所提高，但带来了更多的训练参数和推理时间。这削弱了推导基于内存高效Transformer的方法的重要性。