The Manifold Hypothesis for Gradient-Based Explanations

Abstract

梯度驱动的解释算法何时能够提供与人类感知一致的解释?我们提出了一个标准:特征归因需要与数据流形的切空间对齐。为了验证这一假设,我们引入了一个基于变分自编码器(VAE)的框架,该框架可以估计和生成图像流形。通过在不同数据集上的实验——包括MNIST、EMNIST、CIFAR10、X光肺炎检测和糖尿病视网膜病变检测——我们发现,特征归因越是与数据的切空间对齐,它就越倾向于与人类感知一致。随后,我们展示了流行的后验解释方法(如Integrated Gradients和SmoothGrad)相比于直接使用梯度,更加与数据流形对齐。此外,对抗训练也能改善模型梯度与数据流形的对齐程度。因此,我们建议解释算法应积极努力使其解释与数据流形对齐,以提供更符合感知的解释。

Instroduction

图像分类的事后解释算法通常依赖于相对于输入的梯度【4,38,41】。然而,在许多情况下,模型梯度和事后解释【6, 9, 28, 36, 37】并不具备可以被人类解读的明显视觉结构【21】。这使得使用神经网络进行图像分类成为可解释机器学习中最具挑战性的应用之一。

最近,一些不同的论文观察到了导致感知对齐梯度(PAGs)的条件【16】。特别是,研究表明,对抗训练以及其他形式的鲁棒训练能够产生PAGs【21, 23, 34, 42】。然而,什么特征归因能使其与感知对齐,这一点仍然不清楚。在这项工作中,我们试图理解特征归因何时与感知对齐。我们提出并探讨了以下假设:

  • Hypothesis: Feature attributions are more perceptuallyaligned the more they are aligned with the tangent space of the image manifold.

感知对齐梯度(Perceptually Aligned Gradients, PAGs)是指在解释深度学习模型时,模型的梯度与人类的视觉感知相一致的情况。具体来说,当一个图像分类模型的梯度能够生成符合人类直观理解的视觉结构时,我们就说这些梯度是“感知对齐”的。
在图像分类任务中,梯度通常用于解释模型的决策过程。然而,许多情况下,模型梯度生成的可视化结果并不直观,无法让人类轻松理解模型为什么会做出特定的分类决策。感知对齐梯度则指那些在可视化后能与人类的视觉认知相一致、清晰展示图像中的重要特征的梯度。这种对齐使得模型的解释更加透明和易于理解。

To understand the intuition behind the hypothesis
需要注意的是,普遍认为自然图像数据集中在一个低维的图像流形上【17】。这个图像流形捕捉了数据的几何结构。特别地,图像的切空间(tangent space)捕捉了所有可以稍微改变而仍然保持在自然图像范畴内的图像成分。如果一个特征归因大致位于这个切空间内,这意味着它突出了对预测有贡献的、视觉上有意义的图像成分。如果一个特征归因与切空间正交,这意味着它指向某个方向,而该方向不会导致生成现实的图像,且人类很难理解其意义。特别是,随机噪声很可能与图像流形正交。

To provide empirical evidence for the hypothesis
我们使用自动编码器来估计五个不同数据集的图像流形:MNIST、EMNIST、CIFAR10、X光肺炎检测和糖尿病视网膜病变检测。通过将不同的特征归因投影到切空间中,我们提供了定性证据,表明切空间中的成分与人类感知一致,而正交成分在视觉上类似于随机噪声(第4.1节)。如图1所示,我们还使用变分自动编码器作为生成模型。这使我们能够生成具有完全已知流形结构的图像数据集。

tu1

图1. 概念性概述。首先用变分自编码器估计现有数据集的数据流形,然后使用解码器作为生成模型。在生成的数据上,训练了一个分类器 f f f。对于这个分类器,我们评估不同的基于梯度的解释 ϵ i \epsilon_i ϵi 是否与数据流形的切线空间对齐。沿着与切线空间对齐的解释移动使我们保持在流形中,而沿着正交的解释移动则使我们离开流形。我们的假设是,后者不会导致感知一致的解释,因为它描述了导致非自然图像的变化。

接着,我们展示了流行的事后解释方法,如SmoothGrad、Integrated Gradients 和 Input × Gradient,能够改善特征归因与数据流形的对齐程度(第4.2节)。同样, l 2 l_2 l2对抗训练也显著提高了模型梯度与数据流形的对齐程度(第4.3节)。这些结果在所有不同的数据集中都表现出一致性。

Apart from the intuitive and empirical plausibility of
the hypothesis,

其主要吸引力在于,它为为什么解释图像分类器很困难提供了一个清晰的视角:尽管我们的实证研究表明,事后解释方法和对抗训练改善了特征归因与数据流形的对齐程度,但在许多情况下,仍有很大的改进空间。总体而言,流形假设是理解特征归因何时能成为有效解释的重要一步。

Related Work

Projections on the data manifold.
许多不同的论文采用了将数据点或模型梯度投影到数据流形上的技术【14, 40】。在可解释机器学习中,已有研究表明,通过在图像流形之外修改模型,可以操纵解释,而通过将这些解释投影回流形上,可以防御此类攻击【13】。自然图像数据集中在低维图像流形上的假设得到了多项实证研究的支持。

Evaluating explanations.
评估解释。由于缺乏真实的解释以及解释可能受到对抗性攻击的影响【13, 18】,使得评估解释变得困难【20, 32–34】。关于合理性检查的文献表明,尽管存在这些主要的困难,许多解释甚至未能通过诸如模型参数随机化等最基本的测试【2, 3, 8, 24】。

Alignment of the implicit density model with the
ground truth class-conditional density model.

Srinivas等人【39】提出,当分类器 f f f 隐含的密度模型与真实类别条件密度模型越对齐时,基于梯度的解释就越具有可解释性。基于关于数据如何围绕流形集中的假设,这一标准可以被证明是与流形假设相兼容的。

Overview of our approach

为了评估我们的假设,我们需要测量一个属性 E ∈ R d E\in \mathbb R^d ERd x ∈ R d x∈\mathbb R^d xRd与数据流形在 x x x处的切空间的对齐。

3.1 Background

Data manifolds and tangent spaces. 一个 k k k 维可微流形 M ⊂ R d M \subset \mathbb{R}^d MRd d d d 维空间中的一个子集,它在局部上类似于 R k R^k Rk。在流形 M M M 上的每个点 x ∈ M x \in M xM 处,切空间 T x T_x Tx R d \mathbb{R}^d Rd 的一个 k k k 维子空间。切空间 T x T_x Tx 包含所有方向 v v v,使得当 ∥ v ∥ \|v\| v 很小时, x + v x + v x+v 仍然接近于流形。

Model gradients and explanation algorithms. 我们考虑学习函数 f : R d → R C f : \mathbb{R}^d \rightarrow \mathbb{R}^C f:RdRC 的深度神经网络(DNNs)。其中, C C C 表示类别的数量,模型的预测由 argmax i f ( x ) i \text{argmax}_i f(x)_i argmaxif(x)i 给出。类别 i i i 在点 x x x 处相对于输入的梯度由 grad i ( x ) = ∂ ( f ( x ) i ) ∂ x \text{grad}_i(x) = \frac{\partial (f(x)_i)}{\partial x} gradi(x)=x(f(x)i) 表示。事后解释算法【6, 37, 38, 41】将解释表示为在 R d \mathbb{R}^d Rd 中的向量 E E E

3.2. How do we know the data manifold?

在生成方法中,我们首先在一些现有数据集上训练一个变分自动编码器(VAE)【19, 25】。训练完成后,我们将整个数据集通过自动编码器进行处理。然后,我们训练一个辅助分类器,以从潜在编码和重建图像中重现原始标签。借助这个标记函数,我们从先验分布中采样,并使用解码器和标记函数生成一个具有完全已知流形结构的新数据集:每个数据点的切空间可以通过反向传播从解码器中计算得到【7, 35】。

生成方法的主要限制是,我们可能无法在合理的潜在小空间中获得高质量的样本。为了在现实世界中的高维图像数据上验证我们的假设,在这些情况下难以获得真实的样本且潜在空间不够大的情况下,我们必须依赖于估计切空间。在这种重建方法中,我们将原始数据集通过自动编码器,并以重建的图像和原始标签作为我们新的数据集。

上述内容描述了使用生成方法和重建方法来处理和分析高维数据集的过程。

  • 生成方法
  1. 变分自编码器(VAE)的训练
    首先在现有的数据集上训练VAE。训练完成后,我们可以通过VAE对整个数据集进行处理。
  2. 训练辅助分类器
    使用经过训练的VAE,我们得到每个数据点的潜在编码(latent code)和重建图像(reconstructed image)。接下来,我们训练一个辅助分类器,这个分类器的任务是从这些潜在编码和重建图像中重现原始的标签。
  3. 生成新数据集
    使用训练好的标记函数(将潜在编码映射到标签的函数),我们从潜在空间的先验分布中进行采样。利用解码器(将潜在编码转回原始数据空间的模型)和标记函数,我们生成一个具有完全已知流形结构的新数据集。此数据集的每个数据点的切空间可以通过反向传播计算得到。
    主要限制
    可能无法在潜在空间较小的情况下获得高质量的样本。
  • 重建方法
  1. 数据集重建
    为了解决生成方法的限制,在处理现实世界高维图像数据时,我们可能会遇到难以获得高质量样本的问题。在这种情况下,我们采用重建方法。即我们将原始数据集通过VAE,使用重建的图像和原始标签,作为我们的新数据集。

3.3. Measuring alignment with the data manifold

为了衡量一个解释 E ∈ R n E \in \mathbb{R}^n ERn 与切空间 T x T_x Tx 的对齐程度,我们首先将它投影到切空间中——记作 proj T x E \text{proj}_{T_x} E projTxE,然后计算在切空间中归因的比例。
Fraction of E in  T x = ∣ ∣ proj T x E ∣ ∣ 2 ∥ E ∥ 2 ∈ [ 0 , 1 ] . (1) \text{Fraction of E in } T_x = \frac{||\text{proj}_{T_x}E||^2}{ ∥E∥2}\in [0, 1]. \tag{1} Fraction of E in Tx=E∥2∣∣projTxE2[0,1].(1)
如果特征归因完全位于切空间中,我们有 proj T x E = E \text{proj}_{T_x} E = E projTxE=E。如果特征归因完全正交于切空间,我们有 proj T x E = 0 \text{proj}_{T_x} E = 0 projTxE=0。在定量评估(1)时,我们需要考虑到,即使是随机向量也在切空间中有非零的比例。随机向量在任何 k k k 维子空间中的期望比例是 k d \sqrt \frac{k}{d} dk 。例如,在我们的 MNIST32 任务中, d = 1024 d = 1024 d=1024 k = 10 k = 10 k=10,因此期望比例为 10 1024 ≈ 0.01 \sqrt \frac{10}{1024} \approx 0.01 102410 0.01。因此,我们只能说一个解释与数据流形系统地相关,如果它在切空间中的比例平均显著大于 0.01。

3.4. Datasets

我们在六个数据集上评估了这一假设。这些数据集包括:

  1. MNIST32MNIST256:这两个数据集是 MNIST 数据集的变体【27】,分别包含 60000 张 32 × 32 和 10000 张 256 × 256 的灰度训练图像和测试图像。MNIST32 数据集是通过生成方法从 MNIST 获得的,使用了 β-TCVAE【10】。它位于一个完全已知的 10 维图像流形中,在 1024 维空间中。MNIST256 数据集是 MNIST32 数据集的上采样版本。

  2. EMNIST128:这是 EMNIST 数据集的一个变体【12】。EMNIST128 和 MNIST256 作为高维问题的例子。

  3. CIFAR10 数据集:该数据集是通过重建方法从 CIFAR10【26】中创建的,使用了一个潜在维度为 ( k = 144 ) 的卷积自动编码器。

  4. 我们还在两个高维医学影像数据集上评估了这一假设:

    • X-ray Pneumonia【22】
    • Diabetic Retinopathy Detection【2】

这两个数据集之前已经用于研究事后解释方法的性质。

4. Experimental Results

给定一个数据集,我们训练一个神经网络来最小化测试误差。然后,我们应用解释算法,并评估特征属性如何与数据流形相关。

4.1. Qualitative evidence: The part of an attribution in tangent space is perceptually-aligned

我们现在在 MNIST32 上展示,特征归因中位于切空间的部分是感知对齐的,而位于切空间正交部分的特征归因则不是。图 2 展示了对于一个测试准确率超过 99% 的 LeNet【27】变体,Gradients【37】、Integrated Gradients【41】、Input × Gradient【6】和 SmoothGrad【38】的特征归因。这些归因被分解为位于切空间的部分(第二行)和正交于切空间的部分(第三行)。从图 2 可以看到,位于切空间的归因部分是感知对齐的,而正交的部分则不是。实际上,正交于切空间的部分包含了看似无关的正负归因点。图 2 还提供了定性证据,证明了位于切空间的归因部分具有解释性:图 2 的第二行中的归因通常突出显示了对预测类别相关的图像部分。
tu2

位于切空间中的归属部分是感知对齐的,而与切空间正交的部分则不是.(第一行)来自MNIST32测试集的图像。(第二行)归属中位于切线空间中的部分。(第三行)与切线空间正交的归属部分。红色对应于积极的归因,蓝色对应于消极的归因。

4.2. Post-hoc methods align attributions with the data manifold

我们现在展示,事后解释方法提供的归因比梯度与切空间的对齐程度更高。图 3 显示了在六个不同数据集上,模型梯度、SmoothGrad、集成梯度(Integrated Gradients)和输入 × 梯度(Input × Gradient)在切空间中的比例(1)。所有归因在切空间中的比例都明显大于随机值。特别是,原始梯度在切空间中的平均比例在所有数据集上都显著大于随机值。此外,梯度是与数据流形连接最弱的方法。集成梯度、输入 × 梯度和 SmoothGrad 在所有数据集上都比梯度方法有所改进。
tu3

4.3. Adversarial training aligns model gradients with the data manifold

先前的研究观察到,经过对抗训练的模型的梯度在感知上是对齐的【42】。根据我们的假设,这应该意味着对抗训练模型的梯度与数据流形的切空间对齐。图 4 显示了这一点。 在四个不同的数据集上,经过投影梯度下降(PGD)对抗 l 2 l_2 l2 对手训练的模型的梯度在切空间中的对齐程度始终优于标准模型的梯度。对抗训练的对齐效果非常显著。在 MNIST32 上,鲁棒梯度在切空间中的平均比例为 0.68,而标准模型为 0.31,输入 × 梯度为 0.40(见图 3)。
4

4.4. A user study on the perceptual-alignment of attributions supports the hypothesis

为了评估与数据流形对齐程度更高的归因是否确实更具感知对齐性,我们进行了用户研究。研究包括在 MNIST32 和 CIFAR10 数据集上的三个不同任务。每个任务以 A/B 测试的形式进行,参与者被重复展示来自两个不同图像组(组 A 和组 B)的图像。

在 MNIST32 上的第一个任务中,参与者决定切空间中的归因组件比对应的正交组件更具感知对齐性( N A = 0 N_A=0 NA=0 N B = 580 N_B = 580 NB=580,t-test p < 0.01)。在 MNIST32 上的第二个任务中,参与者决定对于同一图像的不同归因,那些在切空间中比例更大的归因更具感知对齐性( N A = 143 N_A = 143 NA=143 N B = 315 N_B = 315 NB=315,t-test p < 0.01)。在 CIFAR10 上的第三个任务中,参与者决定,具有更大切空间比例的输入 × 梯度归因比梯度更好地突出图像中的物体( N A = 36 N_A = 36 NA=36 N B = 217 N_B = 217 NB=217,t-test p < 0.01)。有趣的是,第三个任务提供了证据,表明与切空间对齐程度更高的归因也更具解释性。有关视觉比较,请参见图 5,其中描绘了具有不同切空间比例的归因。
5

Conclusion

在这项工作中,我们关注特征归因的一个特定方面:它们是否与数据流形的切空间对齐。本文的主要论点是,与数据流形对齐使归因在感知上对齐。虽然当前模型和算法提供的对齐程度不完美,但这是否由于我们尚未找到合适的模型架构或算法,还是因为这个问题比分类本身更困难,这仍是一个悬而未决的问题。

本文的目标不是声称现有模型的梯度提供了良好的解释,或任何特定的事后方法特别有效。相反,我们希望为一系列研究做出贡献,该系列研究独立于特定算法,开发可以用来评估解释的标准。

流形假设的主要吸引力在于它对分析和改进不同解释算法的广泛潜力。我们相信,探索流形假设与其他解释评估标准(如模型的合理性检查和 ROAR 基准测试)之间的联系将是非常有趣的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值