自从大语言模型(LLMs)在各种任务中展现出卓越性能以来,其内部机制的解读已经成为领域内的热门话题。尽管许多研究人员从各个方面做出了尝试并得到了一些结论,但现阶段仍缺乏一个全面的视角来对现有成果进行系统化的归纳与总结。
为此,上海创新算法研究院大模型中心联合清华大学、中国电信研究院发布了综述论文《Attention Heads of Large Language Models》,整合了当前关于注意力头的研究进展,提出创新性的分析框架,从全局视角揭示注意力头的功能与工作机制,为研究者提供了清晰的方向参考和理论支持。该工作已在 Cell 旗下的数据科学子刊《Patterns》发表。
文章地址:
https://www.cell.com/patterns/fulltext/S2666-3899(25)00024-8
Github项目地址:
https://github.com/IAAR-Shanghai/Awesome-Attention-Heads
为什么关注“注意力头”?
在 Transformer 结构中,注意力头是其推理能力的关键组件,它通过选择性地关注输入序列中的相关部分&#