iTransformer（论文总结）

最新推荐文章于 2025-02-12 10:00:00 发布

内大小李

最新推荐文章于 2025-02-12 10:00:00 发布

阅读量965

点赞数 19

文章标签： python

本文链接：https://blog.csdn.net/qq_43260170/article/details/138117236

版权

本文探讨了Transformer在时间序列预测中的局限，并提出了一种新型模型iTransformer，通过独立序列标记和注意机制捕捉多变量相关性。实验结果表明，iTransformer在多数数据集上优于传统模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、针对的问题

本篇论文主要是针对Transformer在时间序列预测上的表现比线性模型差的问题来考虑如何改进Transformer模型，分析了目前的模型，表明Transformer可能不适合多变量时间序列预测。

这个图主要是对比了Transformer和iTransformer的区别，首先对于Transformer来说，在多变量时间序列预测中，会在同一时间提取多个变量的值组成一个向量，然后再这个向量上嵌入时间标记，然后经过编码器和解码器得到预测值。对于iTransformer来说，按照通过一种类来提起向量，在每一个变量的时间序列上嵌入时间标记。

这篇文章的贡献首先就是分析了Transformer在多变量时间序列预测的问题，然后提出了一个iTransformer结构可以有效地解决Transformer在多变量时间序列预测问题上不如线性模型的问题，最后通过了实验进行了验证。

二、模型架构

首先将多元时间序列输入到Embedding中，然后对每一种变量加上时间标签，将有了时间标签的变量输入到TrmBlock中，首先就是经过一个注意力机制，将X分为三份经过不同的线性层作为QKV，将QK相乘缩放以当做相关性的度量，Softmax化后乘以Values。从注意力层出来后，做一个残差连接，之后进入到LayerNorm做一个归一化操作，这样可以解决非平稳问题，减少不同度量造成的差异，之后会经过一个前馈神经网络，从前馈神经网络出来后，再进行一次残差连接，最后再经过一个LayerNorm层，将预测结果输出。

三、实验

本文使用了7个数据集，分别是ECL、ETT、Exchange、Traffic、Weather、Solar-Energy、PEMS。