Attention Sink

最新推荐文章于 2025-04-16 21:11:29 发布

transformer_WSZ

最新推荐文章于 2025-04-16 21:11:29 发布

阅读量924

点赞数 3

分类专栏： LLM 文章标签： Attention

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/transformer_WSZ/article/details/138759665

版权

LLM 专栏收录该内容

21 篇文章

订阅专栏

论文发现自回归LLM存在的一个有趣现象：对于输入文本最靠前的少量几个token，无论它们在语义上与语言建模任务的相关性如何，大量的注意力分数都会分配给他们，如下图所示：

Sink

模型的前两层还能保持attention score更多分配给当前token附近位置的特性，而在其他层，靠前的几个token都会接受到大量的注意力。尽管这些token在语义上很可能并没有什么重要性，但它们却聚集了大量的注意力分数。

出现这个现象的原因就是softmax操作。softmax要求所有上下文token的注意力分数加起来等于1。因此，即使当前token跟前面的其他token都没有语义相关性，模型仍然需要将多余的注意力值分配到前面的某些token，以使得总和为1。

为什么最开头的几个初始token就会承担“接收多余的、不需要的注意力”的任务？最简单的原因就是，对于自回归语言建模，初始token对所有后续token都是可见的，这使得它们更容易被训练成attention sink。

上面这个解释还只是猜想，于是论文做了一个实验来验证这个猜想：把初始的4个token都换成没有重要实际语义的换行符号\n，结果发现模型依然会把大量的注意力分配给这些token，这就说明attention sink这个现象和内容语义无关，而只和这些token所在的位置相关。

参考

大模型推理窗口-从有限到无限大

transformer_WSZ

博客等级

码龄8年

243
原创

950
点赞

1621
收藏

524
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: RAG讲解

下一篇：: GPU利用率

最新评论

Uplift Model离线评估指标
transformer_WSZ: 那就针对每个treatment计算其auuc。整体的auuc取其平均或者加权平均
Uplift Model离线评估指标
Kroossy: 有多组treatment怎么算auuc呢
Win11+Docker搭建CUDA开发环境
transformer_WSZ: 没遇过，应该是镜像版本的问题，你用的是我这个版本吗？
Win11+Docker搭建CUDA开发环境
qq_52994803: 请问有没有遇到这个问题：docker: Error response from daemon: failed to create task for container: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy' nvidia-container-cli: initialization error: load library failed: libnvidia-ml.so.1: cannot open shared object file: no such file or directory: unknown.
P问题、NP问题和NPC问题
CSDN-Ada助手: 什么是KMP算法？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。