CVPR2021 | 超越注意力可视化的Transformer可解释性_transformer interpretability beyond attention visu-CSDN博客

本文链接：https://blog.csdn.net/qq_60090693/article/details/147683696

Transformer Interpretability Beyond Attention Visualization

摘要-Abstract
引言-Introduction
相关工作-Related Work
方法-Method
实验-Experiments
结论-Conclusion

在这里插入图片描述

本文提出一种基于深度泰勒分解原理计算 Transformer 网络相关性的新方法，通过设计相关性传播规则、归一化项，整合注意力和相关性分数来应对 Transformer 中跳跃连接和注意力机制带来的挑战。在视觉 Transformer 网络和文本分类问题的基准测试中，该方法在定性评估、正负扰动测试、分割测试和语言推理任务上均优于现有可解释性方法，为 Transformer 的可解释性提供了有效解决方案。

摘要-Abstract

Self-attention techniques, and specifically Transformers, are dominating the field of text processing and are becoming increasingly popular in computer vision classification tasks. In order to visualize the parts of the image that led to a certain classification, existing methods either rely on the obtained attention maps or employ heuristic propagation along the attention graph. In this work, we propose a novel way to compute relevancy for Transformer networks. The method assigns local relevance based on the Deep Taylor Decomposition principle and then propagates these relevancy scores through the layers. This propagation involves attention layers and skip connections, which challenge existing methods. Our solution is based on a specific formulation that is shown to maintain the total relevancy across layers. We benchmark our method on very recent visual Transformer networks, as well as on a text classification problem, and demonstrate a clear advantage over the existing explainability methods.

自注意力技术，尤其是Transformer，在文本处理领域占据主导地位，并且在计算机视觉分类任务中也越来越受欢迎。为了可视化导致特定分类的图像部分，现有方法要么依赖获得的注意力图，要么沿注意力图进行启发式传播。在这项工作中，我们提出了一种计算Transformer网络相关性的新方法。该方法基于深度泰勒分解原理分配局部相关性，然后在各层传播这些相关性分数。这种传播涉及注意力层和跳跃连接，这对现有方法构成了挑战。我们的解决方案基于一种特定的公式，该公式能够在各层保持总相关性。我们在最新的视觉Transformer网络以及文本分类问题上对我们的方法进行了基准测试，结果表明它相较于现有的可解释性方法具有明显优势。

引言-Introduction

Transformer及其衍生方法在自然语言处理（NLP）领域取得了显著成果，并且在计算机视觉任务中也逐渐受到青睐，其广泛应用使得对其决策过程的可视化变得十分必要。这不仅有助于调试模型、验证模型的公平性与无偏性，还能为下游任务提供支持。

现有可视化方法的问题：Transformer网络的核心组件是自注意力层，当前可视化Transformer模型的常见做法是将注意力视为相关性分数，但这种方式存在诸多问题。例如，简单平均多层注意力会模糊信号，无法考虑各层的不同作用；rollout方法虽有改进，但依赖简单假设，常突出无关标记。此外，许多现有方法在处理Transformer时，无法在所有层传播注意力，只是部分应用。
Transformer网络带来的挑战：Transformer网络高度依赖跳跃连接和注意力算子，这两者都会混合两个激活图，给现有相关性传播方法带来独特挑战。同时，Transformer使用的非线性激活函数（如GELU）会产生正负特征，若处理不当，跳跃连接会导致数值不稳定，像LRP这类方法在这种情况下往往会失效。自注意力层也使得相关性传播难以维持总相关性。
本文方法的优势：本文提出一种新的计算Transformer网络相关性的方法，该方法基于深度泰勒分解原理分配局部相关性，并在各层传播相关性分数。通过引入适用于正负归因的相关性传播规则、针对非参数层的归一化项，以及整合注意力和相关性分数，有效解决了上述挑战。此外，本文方法在设计上实现了基于类别的分离，这是其他Transformer可视化方法所不具备的特性。
研究目标与基准测试：在可解释性研究中，相关概念定义并不统一，一些理论框架依赖特定假设，在实际数据上表现不佳。本文采用机械主义方法，旨在通过多种计算机视觉和NLP基准测试来提升性能。这些基准测试包括ImageNet数据集子集上的图像分割、ImageNet验证集上的正负扰动测试，以及NLP中的公共可解释性基准测试。

方法-Method

非参数相关性传播-Non parametric relevance propagation

这部分聚焦于Transformer模型中两类特殊算子（跳跃连接和矩阵乘法）的相关性传播问题，提出了针对性的解决策略，确保相关性在传播过程中的合理性与稳定性，具体内容如下：

特殊算子的相关性传播需求：Transformer模型中的跳跃连接和矩阵乘法这两个算子，涉及两个特征图张量的混合（区别于特征图与学习张量的运算）。在进行相关性传播时，需要同时通过这两个输入张量进行传播。由于矩阵乘法中两个张量的形状可能不同，这进一步增加了相关性传播的复杂性。
相关性传播的计算方式：对于这类处理两个操作数的二元算子，计算其相关性传播的方式为 $R_{j}^{u^{(n)}}=\mathcal{G}\left(u, v, R^{(n - 1)}\right)$ 和 $R_{k}^{v^{(n)}}=\mathcal{G}\left(v, u, R^{(n - 1)}\right)$ ，分别得到两个张量 $u$ 和 $v$ 的相关性 $R_{j}^{u^{(n)}}$ 与 $R_{k}^{v^{(n)}}$ ，但这些操作的结果会产生正负值。
相关性守恒的差异：研究发现，对于加法操作（如跳跃连接），相关性传播满足守恒规则，即 $\sum_{j} R_{j}^{u^{(n)}}+\sum_{k} R_{k}^{v^{(n)}}=\sum_{i} R_{i}^{(n - 1)}$ ；而对于矩阵乘法操作，通常情况下该守恒规则并不成立。文中通过引理1进行了理论说明，并在补充材料中给出详细证明。
数值不稳定问题及解决：在传播跳跃连接的相关性时，尽管从理论上加法操作满足相关性守恒，但实际计算中仍会出现数值不稳定的情况。例如，在特定示例中，相关性分数可能会出现数值爆炸。为解决矩阵乘法导致的注意力机制中相关性不守恒，以及跳跃连接的数值问题，文章提出对 $R_{j}^{u^{(n)}}$ 和 $R_{k}^{v^{(n)}}$ 进行归一化处理，公式分别为 $\overline{R}_{j}^{u^{(n)}}=R_{j}^{u^{(n)}} \frac{\left|\sum_{j} R_{j}^{u^{(n)}}\right|}{\left|\sum_{j} R_{j}^{u^{(n)}}\right|+\left|\sum_{k} R_{k}^{v^{(n)}}\right|} \cdot \frac{\sum_{i} R_{i}^{(n - 1)}}{\sum_{j} R_{j}^{u^{(n)}}}$ 和 $\overline{R}_{k}^{v^{(n)}}=R_{k}^{v^{(n)}} \frac{\left|\sum_{k} R_{k}^{v^{(n)}}\right|}{\left|\sum_{j} R_{j}^{u^{(n)}}\right|+\left|\sum_{k} R_{k}^{v^{(n)}}\right|} \cdot \frac{\sum_{i} R_{i}^{(n - 1)}}{\sum_{k} R_{k}^{v^{(n)}}}$ 。通过引理2证明了该归一化技术能够维持相关性守恒规则，并且对每个张量的相关性和进行了有效约束，确保 $\leq \sum_{j} \overline{R}_{j}^{u^{(n)}}, \sum_{k} \overline{R}_{k}^{v^{(n)}} \leq \sum_{i} R_{i}^{(n - 1)}$ ，详细证明过程见补充材料。

获取图像相关性图-Obtaining the image relevance map

这部分内容主要介绍了如何基于前文所述的方法获得图像相关性图，这是将模型内部的相关性计算结果转化为可直观理解的图像解释的关键步骤，具体内容如下：

相关性矩阵与[CLS]标记处理：通过前文方法得到的解释结果是一个大小为 $s \times s$ 的矩阵 $C$ ，其中 $s$ 代表输入到Transformer的序列长度。按照注意力计算的惯例，矩阵 $C$ 的每一行对应一个标记相对于其他标记的相关性图。由于研究聚焦于分类模型，所以仅考虑封装分类解释的[CLS]标记。从矩阵 $C$ 中提取与[CLS]标记对应的行 $C_{[CLS]} \in \mathbb{R}^{s}$ ，这一行的分数用于评估每个标记对分类标记的影响。
实际输入标记筛选与处理：在处理过程中，只考虑对应实际输入的标记，排除特殊标记，如[CLS]标记和其他分隔符。在像ViT这样的视觉模型中，内容标记代表图像补丁。
生成最终相关性图：为了得到最终的相关性图，需要将序列重塑为补丁网格大小。例如对于正方形图像，补丁网格大小为 $\sqrt{s - 1}×\sqrt{s - 1}$ 。之后，利用双线性插值将这个相关性图上采样回原始图像大小，从而得到可以直观展示图像中各部分对分类结果影响的最终相关性图。

实验-Experiments

这部分主要描述了对所提方法进行实验验证的相关内容，涵盖实验设置、评估指标、实验结果和消融研究等方面，通过与多种基线方法对比，全面评估了本文方法在视觉和语言任务中的性能，具体如下：

实验设置
- 模型选择：在语言分类任务中，选用BERT - base模型作为分类器，输入最多512个标记，使用[CLS]标记作为分类头的输入；视觉分类任务则采用预训练的ViT - base模型，将输入图像划分为16×16的非重叠补丁，经展平和线性层处理后，在序列开头添加[CLS]标记用于分类。
- 基线方法：分为注意力图方法（如rollout和原始注意力）、相关性传播方法（如LRP及其部分应用变体）和梯度方法（如GradCAM）。排除计算成本过高和原理差异大的黑箱方法（如Perturbation和Shapely值方法）。
评估指标
- 视觉领域：采用正负扰动测试和分割测试。正负扰动测试分两步，先利用预训练网络提取ImageNet验证集的可视化结果，再逐步掩蔽输入图像像素，测量网络的平均top - 1准确率。正扰动从高相关性像素开始掩蔽，期望模型性能大幅下降；负扰动从低相关性像素开始掩蔽，好的解释应保持模型准确率。通过计算擦除10% - 90%像素时的曲线下面积（AUC）评估。分割测试将可视化结果视为图像的软分割，与ImageNet - Segmentation数据集的真实分割对比，用像素准确率、平均交并比（mIoU）和平均精度（mAP）衡量性能。
- 语言领域：遵循ERASER基准的评估设置，在电影评论数据集上对BERT模型微调，应用不同评估方法处理测试集结果，通过计算token - F1分数评估，展示k从10到80（步长为10）时的结果，避免阈值选择对方法性能评估的影响。
实验结果
- 定性评估：可视化对比显示，本文方法的结果更清晰、一致，其他基线方法性能参差不齐。在多物体图像且不同类别的可视化中，除GradCAM外，其他方法对不同类别的可视化相似，而本文方法能提供准确且不同的可视化结果。
  
  图2：示例结果。可以看出，我们的方法能生成更精确的可视化结果。
  
  图3：特定类别的可视化结果。对于每一幅图像，我们展示了两个不同类别的结果。GradCam是唯一能生成不同映射图的方法。然而，其结果并不具有说服力。
- 定量评估：扰动测试中，本文方法在正负扰动测试的预测类和目标类上，AUC指标均大幅优于基线方法（rollout和原始注意力因结果与目标类无关，未参与目标类测试）。分割测试里，本文方法在像素准确率、mAP和mIoU上显著超越所有基线。语言推理任务中，随着token数量增加，所有方法性能提升，但本文方法始终优于基线。
  
  表1：ImageNet验证集上预测类和目标类的正负扰动AUC结果（百分比）。正扰动中，数值越低越好；负扰动中，数值越高越好。
  
  表2：在ImageNet-Segmentation数据集上的分割性能（百分比）。数值越高越好。
  
  图4：电影评论推理任务中的token-F1分数。
消融研究：研究本文方法的三种变体，分别为Ours w/o $A^{(b)}$ （用 $A^{(b)}$ 替代 $\nabla A^{(b)}$ ）、 $A^(1)R^{(n_1)}$ （仅在最接近输出的第1个模块应用方法，去除rollout组件）和 $\nabla A^{(B - 1)} R^{(n_{B - 1})}$ （仅在接近输入的第 $B - 1$ 个模块应用方法）。结果表明，去除rollout组件的∇A(1)R(n1)导致性能适度下降；两个单模块可视化中，靠近输出的第1个模块的注意力梯度和相关性组合更具信息性，且该单模块应用方法优于部分基线方法，证明本文方法的优势源于相关性计算和注意力图梯度的组合。

表3：我们方法不同变体的性能。

结论-Conclusion

这部分内容总结了Transformer可解释性研究的现状，强调了本文方法的贡献与优势，具体如下：

Transformer注意力机制的局限性：虽然Transformer的自注意力机制将每个标记与[CLS]标记相连，直观上注意力强度可指示标记对分类的贡献，但实际上注意力值仅反映了Transformer网络或自注意力头的一个方面。通过在微调的BERT模型（用于NLP任务）和ViT模型上的实验表明，基于注意力的解释存在碎片化且竞争力不足的问题。
Transformer可解释性研究的现状：尽管Transformer模型非常重要，但相关可解释性研究较少。与卷积神经网络（CNNs）相比，Transformer使用非正激活函数、频繁的跳跃连接，以及自注意力中的矩阵乘法难以建模等因素，使得为其他神经网络开发的可解释性方法（不包括计算成本高的黑箱方法）难以应用于Transformer。
本文方法的优势与成果：本文提出的方法针对上述挑战提供了具体解决方案。在与Transformer文献中的方法、LRP方法和GradCam方法对比时，本文方法在多个基准测试中取得了最先进的结果，为Transformer的可解释性研究提供了有效的途径。