AMiner论文推荐

论文标题:PermuteFormer: Efficient Relative Position Encoding for Long Sequences
论文链接:https://www.aminer.cn/pub/6136d84a5244ab9dcb6aa8e8?f=cs
最近的 Transformer 变体 Performer 使用线性注意力机制将 Transformer 扩展到更长的序列。但是,这种方法与相对位置编码不兼容,而相对位置编码比绝对位置编码具有优势。在这篇论文中,作者讨论了向 Performer 添加相对位置编码的可能方法,提出了 PermuteFormer。
PermuteFormer 是一种基于 Performer 的模型,具有相对位置编码,可在长序列上线性缩放。PermuteFormer 对查询和键应用相关位置变换,将位置信息编码到注意力模块中。经过设计后,self-attention 的最终输出不受 token 绝对位置的影响。论文作者在长序列数据集 Long-Range Arena 以及语言建模数据集 WikiText-103 上评估 PermuteFormer。
实验表明,PermuteFormer 在几乎没有计算开销的情况下一致地提高了 Performer 的性能,并且在大多数任务上都优于 vanilla Transformer。
AMiner,让AI帮你理解科学!
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值