Transformer可解释性：注意力机制注意到了什么？

NLP论文解读

于 2022-02-07 12:18:31 发布

阅读量2.7k

点赞数 1

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NLPlunwenjiedu/article/details/122806968

版权

本文探讨了Transformer模型中多头注意力机制的可解释性，提出了自注意力归因算法，用于解释Transformer内部信息交互。研究显示，attention score并不能直接反映重要性，而attribution score能更好地体现注意力依赖对模型预测的影响。此外，通过构建attribution tree，作者可视化了Transformer的信息流动，增强了模型的可解释性，并展示了如何利用这一方法进行注意力头的裁剪和对BERT的非目标攻击。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©原创作者 | FLPPED

论文：

Self-Attention Attribution: Interpreting Information Interactions Inside Transformer （2021 AAAI论文亚军）

地址：

https://arxiv.org/pdf/2004.11207.pdf

01 研究背景

随着transformer模型的提出与不断发展，NLP领域迎来了近乎大一统的时代，绝大多数预训练方法例如BERT等都将transformer结构作为模型的框架基础，在NLP许多领域的SOTA框架中也常常能看到它的身影。

而transformer的成功很大程度上得益于多头注意力机制，这一机制可对输入的上下文信息进行编码，并且使得模型学习到不同输入token之间的依赖关系。

在多头注意力的可解释性研究方面，有些学者侧重于对注意力权重的分析，重点讨论权重大的特征，有些将模型决策的关注点放在输入的token上，还有部分学者认为注意力机制的分布是无法直接解释的。

相比于过去的研究，本文提出了一种自注意力机制的归因算法，可对transformer内部的信息交互进行可解释性的说明。

通过该方法，模型可识别较重要的注意力head，将其他不重要的head进行有效裁剪。还可通过构建归因树（attribution tree）将不同层之间的信息交互进行直观的可视化表示。

最后，文章还以bert作为扩展的实例应用，通过对归因结果分析构建的Adversarial trigger对Bert发动攻击，使得bert的预测能力显著下降。

02 Transformer简介

首先让我们来重新回顾一下Transformer结构。一般Transformer的结构是由encoder和decoder两部分组成，两者各包含N=6的layer，每个layer由两个sub-layer组成，分别为多头自注意力和全连接网络，具体如图1所示。

Transformer模型的成功很大程度上得益于多头注意力机制。假定每个layer的attention heads数量为h，第h个attention head可用下式(1),(2),(3)表示

那么每一层多头注意力可表示为：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

NLP论文解读 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。