attention机制的替代（LAMBDANETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION）

最新推荐文章于 2024-04-25 09:47:50 发布

zwjshsf

最新推荐文章于 2024-04-25 09:47:50 发布

阅读量1.1k

点赞数

分类专栏：论文笔记文章标签：深度学习计算机视觉自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40180897/article/details/109495417

版权

attention机制的替代（LAMBDANETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION）

摘要

ICLR2021盲审的一篇论文
在自然语言处理领域（NLP）成为重要力量的 Transformer 技术最近已经开始在计算机视觉领域展现自己的实力。不过到目前为止，由于 Transformer 注意力机制对内存的需求是输入图像的二次方，所以这一方向还存在一些挑战。这篇文章就是针对attention机制的一个替代，近日，LambdaNetworks 的出现提供了一种解决此问题的方法，人们可以无需建立昂贵的注意力图即可捕捉长距离交互。这一方法在 ImageNet 上达到了新的业界最佳水平（state-of-the-art 84.8%）。

论文地址

https://openreview.net/pdf?id=xTJEN-ggl1b

长程交互

这一部分主要就是说明注意力机制的一些问题。
当前注意力交互。首先缩小查询深度，创建查询和上下文元素之间的相似性核（注意力图），也就是所谓的注意力操作。该机制可以被看作激发查询、键和数值术语的可微内存的寻址。由于上下文位置 |m| 的数量越来越大，并且输入和输出维数 |k| 和 |v| 保持不变，所以在层输出是较小维数 |v| ＜＜ |m| 的一个向量时，作者假设计算注意力图是不划算的。

lambda层

一

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。