iTransformer(论文总结)

一、针对的问题

        本篇论文主要是针对Transformer在时间序列预测上的表现比线性模型差的问题来考虑如何改进Transformer模型,分析了目前的模型,表明Transformer可能不适合多变量时间序列预测。

这个图主要是对比了Transformer和iTransformer的区别,首先对于Transformer来说,在多变量时间序列预测中,会在同一时间提取多个变量的值组成一个向量,然后再这个向量上嵌入时间标记,然后经过编码器和解码器得到预测值。对于iTransformer来说,按照通过一种类来提起向量,在每一个变量的时间序列上嵌入时间标记。

这篇文章的贡献首先就是分析了Transformer在多变量时间序列预测的问题,然后提出了一个iTransformer结构可以有效地解决Transformer在多变量时间序列预测问题上不如线性模型的问题,最后通过了实验进行了验证。

二、模型架构

首先将多元时间序列输入到Embedding中,然后对每一种变量加上时间标签,将有了时间标签的变量输入到TrmBlock中,首先就是经过一个注意力机制,将X分为三份经过不同的线性层作为QKV,将QK相乘缩放以当做相关性的度量,Softmax化后乘以Values。从注意力层出来后,做一个残差连接,之后进入到LayerNorm做一个归一化操作,这样可以解决非平稳问题,减少不同度量造成的差异,之后会经过一个前馈神经网络,从前馈神经网络出来后,再进行一次残差连接,最后再经过一个LayerNorm层,将预测结果输出。

三、实验

本文使用了7个数据集,分别是ECL、ETT、Exchange、Traffic、Weather、Solar-Energy、PEMS。

首先做的是在这七个数据集上进行多元时间序列预测,结果表明,使用iTransformer在大部分数据集的效果都优于其他模型。

其次对模型进行消融实验,对模型进行了替换和移除组件实验,分别对注意力机制和前馈神经网络进行替换和移除,结果表明iTransformer的表现较好。

四、总结

本文提出了在不修改任何固有模块的情况下对Transformer的结构进行反转的ittransformer。iTransformer将独立序列作为变量标记,通过注意捕获多变量相关性,并利用层归一化和前馈网络学习序列表示。对于改进时间序列预测模型,我认为这种改进思路可以应在日后对模型调整和改进上。

论文地址:https://arxiv.org/abs/2310.06625

代码地址:GitHub - thuml/Time-Series-Library: A Library for Advanced Deep Time Series Models.

参考文献:时间序列机器学习论文:iTransformer_itransformer论文-CSDN博客

本文只是用于作者自己读论文时的一些笔记,由于本人刚开始学习深度学习,了解的还不够全面,而且是刚开始写博客,其中语句不通顺等问题可能会存在,如有错误和问题,欢迎指出。

  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值