Alibi:Attention With Linear Biases Enables Input Length Extrapolation

最新推荐文章于 2024-08-23 09:54:10 发布

HanZee

最新推荐文章于 2024-08-23 09:54:10 发布

阅读量846

点赞数 1

文章标签：深度学习人工智能机器学习语言模型 llama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18555105/article/details/131442418

版权

Alibi:Attention With Linear Biases Enables Input Length Extrapolation

Introduction
Method
Result
参考

Introduction

假设一个模型在512token上做训练，在推理的时候，模型在更长的序列上表现叫做模型的外推性。作者表明以前的位置编码如Sin、Rotary、T5 Bias 的外推性都随着推理长度的增加变得越来越差。基于此，坐着的提出了Alibi，如下图：
在这里插入图片描述
Alibi与其他位置编码相比，随着推理token长度的增加模型对token的困惑度基本不变。
同时，Ailibi在训练速度与推理速度上都比T5与Rotary要快，与Sin相当，内存占用上也要比前者少11%。

Method

在这里插入图片描述

Alibi的方法十分简单，如上图，在计算 attention score的时候，会对以前的分数按照与当前的位置差距进行不同程度的惩罚。假设在计算q3与k3的attention时，q3还会考虑 k1，k2的attention，其中对q3k1就-2，对q3k2就-1。然后在乘上坡度m，其中作者发现m不需要根据不同数据选择不同的值，在使用的时候不变即可，m在不同的head上设置方法如下：
在这里插入图片描述

Result

在这里插入图片描述

参考

https://arxiv.org/pdf/2108.12409.pdf

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HanZee 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。