00x1
论文标题:Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks
来源:清华大学Jittor
00x2
文章重点通过引入external attention来代替self-attention,并且external attention能够贯穿所有样本,学习到所有样本共享的特征。为此,我们需要引入一个外部的SxD的记忆单元M。
They(two memories) are independent of individual samples and shared across the entire dataset, which plays a strong regularization role and improves the generalization capability of the attention mechanism.
![只需2层线性层,就能超越自注意力机制,清华计图团队又有新突破](https://img-blog.csdnimg.cn/img_convert/656a44e3b4ec3181c2a957a2b60ab220.png)
引入两个不同的记忆单元用于增强External-attention的表达能力,
![只需2层线性层,就能超越自注意力机制,清华计图团队又有新突破](https://img-blog.csdnimg.cn/img_convert/656a44e3b4ec3181c2a957a2b60ab220.png)
![只需2层线性层,就能超越自注意力机制,清华计图团队又有新突破](https://img-blog.csdnimg.cn/img_convert/a2dcc2e074dc4f464c10ddbcbff7f0b6.png)
00x3
这个论文挺有意思。引入了两个记忆单元隐式地共享了样本上的特征。