Adaptive Attention Span in Transformers

简介

  这篇论文作者提出了一种独特的自注意力机制,能够学习到最佳的attention覆盖文本的范围。
  Transoformer很难关注一个超过千个单词的句子,但是在字符语言模型中,会出现跳跃千个字符的关联。作者提出了一种多头注意力的改进版,让多头注意力学习到最优的注意力关联,减少计算量。这种改进版的Transformer在低层关注很少的文本,而在深层能够关注到更多的文本内容。自我决定需要关注多长的内容。

具体内容

adaptive attention span

作者发现传统的transformer中的多头注意力中,有些注意力学习的是这个单词与前文的关系,有的学习到的是全文的关系。那么如何让多头注意力学习到不相关的内容呢?作者对于每个头,都添加了一个masking fuction来控制attention的范围。公式是 m z ( x ) = m i n [ m

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值