Adaptive Attention Span in Transformers

最新推荐文章于 2024-08-06 14:04:30 发布

Tyyy`

最新推荐文章于 2024-08-06 14:04:30 发布

阅读量1.4k

点赞数

分类专栏：论文文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/soulesstitan/article/details/104340009

版权

论文提出了一种改进的Transformer模型，能学习到适应性的注意力范围，解决传统Transformer在长序列处理中的局限。通过添加masking函数和动态调整注意力范围，模型在字符级语言模型任务上表现出色。

摘要由CSDN通过智能技术生成

简介

这篇论文作者提出了一种独特的自注意力机制，能够学习到最佳的attention覆盖文本的范围。
Transoformer很难关注一个超过千个单词的句子，但是在字符语言模型中，会出现跳跃千个字符的关联。作者提出了一种多头注意力的改进版，让多头注意力学习到最优的注意力关联，减少计算量。这种改进版的Transformer在低层关注很少的文本，而在深层能够关注到更多的文本内容。自我决定需要关注多长的内容。

具体内容

adaptive attention span

作者发现传统的transformer中的多头注意力中，有些注意力学习的是这个单词与前文的关系，有的学习到的是全文的关系。那么如何让多头注意力学习到不相关的内容呢？作者对于每个头，都添加了一个masking fuction来控制attention的范围。公式是

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。