【论文解读】Attention is not Explanation 注意力不是可解释性《Attention is not not Explanation》注意力不是不可用于解释性-CSDN博客

本文链接：https://blog.csdn.net/qq_52433953/article/details/109907337

Attention is not Explanation

继续上周关于注意力机制作为模型可解释性的讨论。这是两篇先后发表的论文。论文2对论文1中的一些观点进行了反驳。
原文：《Attention is not Explanation》
原文2：《Attention is not not Explanation》

在论文1中作者提出，如果注意力提供解释，那么需要满足下面两个性质：
（1）注意力分布中的权重必须与特征重要性度量(feature importance measures)相关
（2）如果训练的注意力分布被改变或替换，那么预测结果也应该发生相应的(comparable)变化。
为此作者提出了两个问题：
（1）注意力权重在多大程度上与特征重要性的衡量标准相关？
（2）不同的注意力权重必然会产生不同的预测吗？
之后作者设置了实验用来操纵BiLSTM模型的注意力，并针对上面的两个问题得出结论：
1）注意力权重与特征重要性的度量只有弱的和不一致的相关性。
2）不同的注意力权重不一定会导致不同的预测。并且即使是随机分配的注意力权重也只会对模型的预测产生微小的影响
在实验中作者使用两种方式跑来处理，第一种是作者这几一个对抗性的注意力机构，使对于每个token来说生成的注意力值与原来的注意力值相比差距尽可能的大；第二种则是一个完全随机的生成网络。在使用了这两种操纵的注意力进行誓言之后得到的预测结果与原来的预测结果差距不大。因此作者得出了上面提到的两个结论。
对于作者使用生成的对抗注意力网络的方式我感觉有些疑惑，即使作者生成的新的注意力网络和原来的不同，同时也产生了类似的结果，也不能说原来的注意力分布不具有可解释性。因为在正常的实验中是不会生成作者的这种对抗的注意力分布的，或许这种生成的对抗性的注意力分布是一种新的解呢？并且作者过分关注注意力的权重值，也就是对注意力的值只作为他对应token的权重，但是实际上注意力机制本身和LSTM所带来的信息是有相似之处的，注意力机制本身带来了token的“上下文”信息，也就是说不能简单的把注意力权重简单的解释为一个token的权重，权重本身附带了层级信息。仅仅凭借这种结果不一定可以得到论文标题那么大的结论。
论文二《Attention is not not Explanation》对上文中作者的观点进行了反驳。和我的疑问一样论文二中作者对论文一所提到的对抗性的注意力提出了质疑，并设计实验：
作者将论文一中的attention+LSTM 模型中的LSTM网络去除，目的是为了去除层级信息。然后再用本来的注意力与作者一提到的对抗性注意力机制进行实验，按照作者一的方式进行预测输出。发现还是原来的注意力的结果更好。更进一步作者又讨论了应该如何生成一个“真正的”对抗注意力网络，作者给出下面的损失函数，可以用端到端地SGD训练。这样生成的网络更“客观”并且所生成的对抗性的注意力网络更完整。