多头注意力机制_bert性能优化之——用另一种方式整合多头注意力

最新推荐文章于 2024-09-05 07:00:00 发布

weixin_39601194

最新推荐文章于 2024-09-05 07:00:00 发布

阅读量2.2k

点赞数

文章标签：多头注意力机制

本文链接：https://blog.csdn.net/weixin_39601194/article/details/111332272

版权

本文介绍了如何通过提取多头注意力机制中的通用信息来优化BERT模型性能，提出CollabHead方法，减少了计算成本并保持了精度。通过对注意力头的张量分解和重新参数化，实现了在降低维度的同时提升模型推理效率。

摘要由CSDN通过智能技术生成

今天我想给大家介绍这样一篇论文：Multi-Head Attention: Collaborate Instead of Concatenate。作者均来自

洛桑联邦理工学院_百度百科baike.baidu.com

看过我文章的同学肯定知道，我一直在关注bert模型的性能优化相关研究，而这篇论文正好是与transformer的性能优化相关，并且我认为它的方法不需要做太多的适配就能应用在预训练模型上面，实用性较高，因此推荐给大家。

众所周知，经典的transformer架构中采用了multi-head attention机制来引导模型从不同角度学习不同的语义信息，从各种实验对比中也能发现多头机制确实能够提升模型在NLP任务上的精度。然而，随着目前大规模预训练模型的普及，多头注意力机制在带来精度提升的同时，也增加了计算的成本，带来了性能上的限制。

因此最近两年，有些研究人员尝试从不同的维度去探讨是否能从多头机制上去优化transformer的性能。有些工作重点关注了多头中每个头的注意力到底捕捉了哪些语义信息，头与头之间捕捉的信息是否有冗余，例如这篇论文：Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned，提出了一种量化注意力头重要程度的方法。还有一些工作更加激进，提出了多头注意力机制是否有必要的疑问，例如这篇论文：Are sixteen heads really better than one。它对transformer中的每个头都做了消融实验，探讨了每个头在不同下游NLP任务上的作用，最后提出了一种迭代式地剪枝注意力头的方法。

与上述工作不同，本篇论文并非直接对注意力头进行结构性剪枝，而是关注所有注意力头捕捉的通用信息，试图将这些信息提取出来作为sharing weights，每个头各自关注自己独有的工作，从而减少多头注意力计算时的成本。下面我就详细得为大家解读这篇论文的工作。