【论文笔记2】Long-Short Transformer: Efficient Transformers for Language and Vision

最新推荐文章于 2024-06-08 10:06:34 发布

GISer阿兴

最新推荐文章于 2024-06-08 10:06:34 发布

阅读量1k

点赞数 4

文章标签：深度学习 python

本文链接：https://blog.csdn.net/qq_43542339/article/details/118771339

版权

1. Summary Contributions：

（1）提出了一种长短时Transformer模型：Long-Short Transformer (Transformer-LS)：
- Short：利用滑动窗口获取短序列（局部）attention
- Long：基于动态投影获取长序列（全局）attention
（2）在Long-Transformer中提出动态投影方法
（3）提出 DualLN（双向归一化）来解决不同term下维度不一致的问题
（4）可以很好加入视觉Transformer模型中取得好效果

Step1：图中每一行表示一个序列，长度n为8，将序列复制8次得到矩阵；（1维）窗口宽度为2，节点特征维度为d=3。
Step2：序列左右各有一个大小为w/2的padding，用长度为w的窗口将序列分为不相交的多等分，计算attention
由于每个窗口包含w个token，但关注了2*w个token，因此：
- input：n × d
- output_attention：2w × d
这里每一个token的output_attention相当于其关于自身以及上下文信息的聚合，所以是short-term（局部）

在这里插入图片描述

问题：如果直接拼接后进行LayerNorm：标准化后均值为0，而由于使用多头注意力机制进行加权平均的时候，会减小均值为0的向量的方差，从而减小该向量的范数。而对于Long和Short而言，其节点维度不同（Long>>Short），故Long这边的范数相对Short而言会较小，导致梯度更小，阻碍模型训练
解决：分别进行LN后再拼接，公式如下

（1）提出了short term的双向模型和Long-term的自回归模型，对比如右图：其在长序列数据处理中表现较好，主要是因为经过动态投影降低了attention的计算复杂度，所以序列越长相较而言越占优势。
（2）通过动态投影降低了attention的计算复杂度。
传统的attention计算复杂度为O(n2)，改进后由于将输入节点维度投影至r，而r是一个超参数，将使得计算复杂度降为了O(r*n)
（3）针对序列化数据，LSTM将上下文信息通过从网络浅层传至网络深层体现序列化，而LS-Transformer把序列化信息体现在attention的计算过程上。（有待考虑）

关注