论文阅读:TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION

论文研究表明,正弦位置嵌入的Transformer模型在推理时难以外推到训练时未见过的输入长度。ALiBi(Attention with Linear Biases)方法通过引入线性递减惩罚,提高了模型的外推能力,允许在较短序列上训练的模型在推理时处理更长序列,实现与正弦模型相当的性能,但训练速度更快、内存使用更少。ALiBi在外推到训练长度的两倍时达到最佳效果,有效降低了早期token的困惑度。
摘要由CSDN通过智能技术生成

论文链接

ABSTRACT

自从transformer模型被提出以来,一个基本问题尚未得到回答:对于比训练中看到的更长的序列,模型如何在推理时实现外推。我们首先证明了外推可以通过简单地改变位置表示方法来实现,尽管我们发现目前的方法不允许有效的外推。因此我们引入了一个更加简单而且更高效的位置表示方法,即Attention with Linear Biases(ALiBi)。ALiBi不会将position embedding和word embedding相加,它使query-key的注意力得分产生偏差,惩罚与他们的距离成正比 。实验表明,该方法在长度为1024的输入序列上训练13亿参数模型,该模型外推到长度为2048的输入序列,实现了与在长度为2048输入上训练的正弦位置嵌入模型相同的困惑度 ,但训练速度快11%,使用的内存少11%。ALiBi对时间的归纳偏见也使其在WikiText-103基准测试中优于多种强位置方法。

1. INTRODUCTION

在构建一个基于transformer的模型时,一个主要的设计是对训练时序列长度的设计,在这里用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

comli_cn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值