论文标题:PermuteFormer: Efficient Relative Position Encoding for Long Sequences
论文链接:https://www.aminer.cn/pub/6136d84a5244ab9dcb6aa8e8?f=cs
最近的 Transformer 变体 Performer 使用线性注意力机制将 Transformer 扩展到更长的序列。但是,这种方法与相对位置编码不兼容,而相对位置编码比绝对位置编码具有优势。在这篇论文中,作者讨论了向 Performer 添加相对位置编码的可能方法,提出了 PermuteFormer。
PermuteFormer 是一种基于 Performer 的模型,具有相对位置编码,可在长序列上线性缩放。PermuteFormer 对查询和键应用相关位置变换,将位置信息编码到注意力模块中。经过设计后,self-attention 的最终输出不受 token 绝对位置的影响。论文作者在长序列数据集 Long-Range Arena 以及语言建模数据集 WikiText-103 上评估 PermuteFormer。
实验表明,PermuteFormer 在几乎没有计算开销的情况下一致地提高了 Performer 的性能,并且在大多数任务上都优于 vanilla Transformer。
AMiner,让AI帮你理解科学!