【翻译】论文剖析：《Understanding Black Box Predictions via Influence Functions Explained》

最新推荐文章于 2025-09-17 21:44:34 发布

翻译最新推荐文章于 2025-09-17 21:44:34 发布 · 1.8k 阅读

15 ·

CC 4.0 BY-SA版权

原文链接：http://mlexplained.com/2018/06/01/paper-dissected-understanding-black-box-predictions-via-influence-functions/

文章标签：

#翻译 #可解释性 #深度学习 #分类 #影响力函数

科研专栏收录该内容

5 篇文章

订阅专栏

原文标题：Paper Dissected: Understanding Black Box Predictions via Influence Functions Explained
原文作者：Keita Kurita (Personal Page)
译文作者：Morton Wang

假设你正在训练一个图片分类器，然而模型的预测结果就像下图一样让你猝不及防：
在这里插入图片描述

问题：面对这种情况，你会采取怎样的措施呢？
Understanding Black Box Predictions via Influence Functions Explained 是 ICML 2017的最佳论文，该论文提出了一个强有力的技术来调试这些错误的模型预测。这并不是说影响函数（Influence Functions）只是一个调试工具。影响函数是一种理解模型行为的通用而强大的技术，它可以用来向领域专家解释结果，甚至可以用来制作对抗性训练实例。

本文的数学含量很高，但我已经尽可能的剥离了数学的内容，尽可能的用具体的例子和直观的解释来代替。我把涉及数学的解释放在了这篇文章的最后，如果你觉得有什么遗漏，可以随意往前翻。

要点

影响函数测量了训练样本如何对一个测试样本的预测结果产生影响；
更具体地说，它衡量的是，如果我们要 "加权 "某个训练例子，测试损失会有多大的变化；
影响函数由三部分组成：训练样本的梯度、测试样本的梯度以及从模型的视角来看的样本的相似度。更高的梯度和相似度会导致更大的影响值；
影响函数需要计算海森矩阵梯度积，有很多技巧可以使得计算更有效率（感谢前人多年的研究！）；
影响函数有以下用途（还有很多其他用途）。
- 寻找标签错误的样本
- 处理领域不匹配
- 创建对抗性训练样本
虽然影响函数是基于模型的损失函数必须是凸性的这一原则，但它们对于非凸模型也有惊人的效果。

影响函数的基本思想

任何机器学习从业者都会知道，在实践机器学习时，训练和做出预测只是故事的一半。一个在局部验证上表现良好的模型可能会在生产中惨遭失败，或者你的模型可能不会像你预期的那样表现。你的模型可能表现低于你的预期。我们有各种技术来分析模型预测的模式，包括老式的错误分析。问题是，仅仅知道一个模型是如何 "思考 "的往往是不够的。例如，知道我们的模型将许多猫咪归类为吉他并不能帮助我们。

如果我们想 "修复 "一个模型，我们也想知道为什么会导致它以某种方式思考。一个模型的行为可以追溯到它的训练数据。换句话说，我们想知道是什么训练样本导致模型做出了某些预测。这就是影响函数背后的关键思想–许多解释方法将训练后的模型视为固定的，而影响函数则将其视为它所获得的训练实例的函数，这就赋予了它独特的能力。

当然，我们可以在去除某个训练样本的情况下，通过从头开始重新训练模型来确定该训练样本对模型的影响值。这对于训练速度快的简单模型来说可能是可行的，但对于绝大多数模型来说显然是太昂贵了。我们需要一种以相对便捷的方式来近似计算影响力的方法。

为了做到这一点，影响函数提出以下问题：“如果我们把训练样本中某个例子的权重/重要性提高一点点，模型会发生什么变化？” 更具体地说，我们量化一个训练样本 $z$ 对一个测试样本 $z_{test}$ 损失的影响。一个训练样本如果对一个测试样本 $z_{test}$ 的测试损失改变越大，对模型预测 $z_{test}$ 的影响也就越大。请注意，这种影响既可以是积极的，也可以是消极的：训练样本可能改善（降低）或恶化（提高）测试样本的损失，影响函数考虑到了这一点。下图是对这点内容的总结：
在这里插入图片描述
先把影响函数的实际形式放一放，我们随后会讲到，现在假设我们能够计算出它。回到最初的那个例子，我们可以使用这个影响函数来找到最能增加测试损失的训练例子。通过使用这种技术，我们可能会得到如下的结果：
在这里插入图片描述
难怪我们的模型会遇到这么多麻烦：它被输入了错误的数据？(是的，这张图片是我分享可爱的猫咪照片的借口，但请在这里耐心等待)（译者注：原作者还是有点可爱）。

到目前为止，所有这些讨论都还只是纯粹的假设。现在，我们将转而讨论影响函数的实际形式，把 Influence Functions 变得更加具体，以及如何高效计算它。

影响函数是什么样的

我把影响函数的推导留到了这篇文章的最后，因为这涉及到数学问题，而且对理解这篇文章的其他内容并不是严格必要的。我们直接跳到结论，这是影响函数的形式：
$-\nabla_{\theta}L(z_{test}, \hat{\theta})^TH_{\theta}^{-1}\nabla_{\theta}L(z, \hat{\theta})$
让我们来解析一下这个式子。这里的 $L$ 指的是损失函数， $\theta$ 表示学习到的参数。 $\nabla_{\theta}L$ 和 $H_\theta$ 是损失函数的梯度和海森矩阵（如果你对这些符号背后的直觉没有信心，请参考我的之前写的关于梯度和海森矩阵的博客文章)。 $\hat{\theta}$ 是我们通过训练得到的模型的参数集合（译者注：可以理解为最佳参数）。正如你所看到的，我们计算影响函数所需要的所有变量都可以在完全不改变或重新训练模型参数的情况下计算出来。

通过分析这个式子，我们可以马上对影响函数的工作原理有一些直观的认识。首先，我们注意到影响的大小与训练和测试损失的梯度的范数成正比。这是很有道理的：梯度较大的训练样本会对模型参数产生较大的影响，从而影响测试损失。其次，这个函数的形式可能会让一些人觉得很熟悉：一个正定矩阵的逆的两边有两个向量（在推导中假设该海森矩阵是正定的，别担心，我们后面会讲到更一般的情况）。这个式子的形式本质上表达了一个 "相似性 "的概念。距离较近的点会有较大的影响。这也是有道理的：从模型的角度来看，模型对某个测试样本的预测受到 "相似性 "的样本的影响最大。请注意，这种 "相似性 "可以完全不同于简单的欧氏距离：事实上，影响函数从模型的角度自然地捕捉到了相似性，这是它最强大和有用的功能之一。这一点在下图中得到了很好的体现：
在这里插入图片描述
这张图里有很多内容，如果看起来很压抑，也不要担心。让我们逐一剖析一下。在高层次上，这张图绘制了两个模型的欧氏距离和影响函数值之间的关系。上图和下图分别对应不同的模型：RBF SVM和基于 inception net 图像特征训练的模型。图中的点分别对应一张训练图像，x轴代表训练图像和测试图像之间的欧氏距离（如上图顶部所示），y轴代表影响函数（注意，影响函数既可以是正值，也可以是负值，而欧氏距离严格来说是非负值）。

对于RBF SVM来说，欧氏距离大的图像影响很小，而对于起始特征（inception feature）模型来说，欧氏距离和影响函数似乎没有关系。那么是什么因素影响了起始特征（inception feature）模型呢？右边显示了每个模型中影响最大的图像。如你所见，虽然RBF SVM模型受欧氏距离相似的图像的影响很大，但起始特征（inception feature）模型受包含相同鱼类的图像（即语义相似的图像）影响很大。这意味着影响函数是一种更通用的发现有影响力的训练样本的方法。此外，我们可以衡量影响是正向的还是负向的，从而让我们发现对测试样本 "最有帮助 "的图像（如右上角所示）。有意思吧？

影响函数的计算

虽然影响函数在理论上是伟大的，但如果我们不能计算它，它就没有实际用途。不幸的是，影响函数需要计算海森矩阵（Hessian），这是一个二阶导数的矩阵。计算海森矩阵是一个（非常明显）极其繁重的操作，尤其是像深度神经网络这样有数百万参数的模型。

幸运的是，海森矩阵已经在数学和计算构造得到了很多研究，多年来，人们设计了许多技巧来处理它。在我们的案例中使用了以下技巧：我们可以跳过计算海森矩阵，进而直接高效地计算海森矩阵与另一个向量的乘积。论文中概述了两种方法，我将对这两种方法做一个简要的概述，而不会对细节进行太深入的探讨（那将是一篇全新的博文！）。

共轭梯度法

（译者注：第一种技术是一种标准的将矩阵求逆转换为最优化问题的转换方法。）
在这种方法中，我们基于以下事实：利用海森向量积 $H^{-1}_{\hat{\theta}}v$ 最小化以下关于 $t$ 的凸方程： $\frac{1}{2}t^TH_{\hat{\theta}}t - v^Tt$
当方程为凸型时，一种称为共轭梯度的优化技术可以在线性时间（与参数数量有关）内找到最优解，有效地计算出所需向量。(译者注：这里，我们可以较为高效的计算 $H_{\hat{\theta}}v$ 并且不需要知道 $H_{\hat{\theta}}$ 矩阵的确切的值)

随机估计法

虽然共轭梯度法相较原始计算而言，已经有了很大的改进，但如果我们仍然必须迭代所有的训练样本，它仍然是昂贵的（译者注：主要指时间代价）。如果训练集足够大，我们最好基于部分训练集，使用随机估计法来估计海森向量积。虽然我将跳过推导，但我们可以使用来自训练集 $z_1$ ， $z_2$ ，…的样本序列来迭代估计Hessian向量积。下面是公式：
$H_j^{-1}v = v + (I - \nabla^2_{\theta}L(z_j, \hat{\theta})H_{j-1}^{-1}v)$

$\nabla^2_{\theta}$ 是样本 $z_j$ 的二阶导数集，可以用 PyTorch 和 Tensorflow 等自动微分机制计算。作者发现这种方法比共轭梯度快得多。如果你对实际如何实现这个方法感兴趣，这里是论文作者提供的 Tensorflow 版本的代码。

影响函数的实际运用

我们已经发现了影响函数是如何有效和合理地寻找有用和有害的训练样本的方法。事实证明，这个方便的工具还有很多其他的运用场景。

处理领域不匹配

在一个领域的样本上训练一个模型，然后在另一个领域的样本上服务，可能会存在许多意想不到的障碍。例如，在来自互联网的图像上训练一个模型，然后使用该模型对从智能手机拍摄的图像进行分类，可能会导致令人惊讶的错误。影响函数可以帮助建立关于模型如何应对这种领域转变的直觉。检查哪些训练样本会以何种方式影响测试损失，从而帮助澄清哪些模式被错误地运用在了不同领域上。

作者通过创建一个关于医院再次入院的玩具数据集来证明这一点。在这个数据集中，目标是根据性别和年龄等特征预测某个病人是否会再次入院。作者人为地去掉了很大一部分健康儿童，并在这些 "有偏见 "的数据上训练模型。当然，这个模型对儿童进行了巨大的误判。

影响函数在这里有什么帮助呢？通过可视化的影响函数，作者能够发现再次入院的孩子对儿童的测试损失有不成比例的负面影响。换句话说，影响函数可以通过找到哪些样本对模型有强烈的负面影响来帮助调试，让用户识别哪些模式可能会导致问题，以及数据中存在哪些偏差。

寻找标签错误的样本

寻找负影响最大的训练样本，有时可以发现不是由模型而是数据造成的错误。我们在我这篇文章开头的例子中说明了这一点，但值得深入研究一下。作者通过做下面的实验来测试影响函数能够发现错误数据的能力。

翻转垃圾邮件分类数据集的10%的标签（译者注：翻转的都是训练集样本，测试集样本没有改动）。
定期检查一部分基于以下原则选出的训练样本，并对错误的标签进行修改。
- 随机选择
- 根据损失值选择
- 基于影响函数选择

在这里插入图片描述正如你所看到的，影响函数在寻找可疑的训练样本方面效率更高（译者注：从而也达到了最好的测试效果，至少与另外两种模型相比）。

生成对抗性训练样本

影响函数的一个简单扩展允许我们计算一个扰动对一个训练样本的影响。使用这种技术，我们可以找到会使模型偏离最大的扰动和训练样本。这使得我们可以制作对抗性的训练样本。扩展上面的例子，我们可以创建一个系统性错误分类狗和鱼的模型。

注意事项和验证

事实证明，影响函数并不是万能的，它们依赖于两个关键假设：

对于模型参数的损失函数是凸的
对于模型参数的损失函数是可以两次微分的

让我们来看看这些假设，以及当这些假设不成立时会发生什么。

凸性

考虑到本文是作为分析深度学习模型的方法提出的，第一个约束条件似乎不合理：深度学习模型肯定不是凸的。虽然影响函数不能直接用于非凸模型，但作者发现，只要稍加修改，它们的表现就非常好。这个修改与非凸模型的海森矩阵不一定是正定的有关，所以应该像这样加入一个平滑常数： $H_{\theta}\rightarrow (H_{\theta} + \lambda I)$ 这其实在数学上相当于增加了 $l_2$ 正则化，所以是一个合理的修改。通过这种方式，作者发现影响函数与 leave-one-out （从训练集中完全去掉一个样本再进行训练）的训练方法得到的结果匹配度比较高。

因此，无论凸性如何，影响函数似乎都是有效的，这意味着它们可以应用于深度神经网络。

可微性

当损失函数不是两次可微分时，就无法计算影响函数。我们可以做的是用可微分的损失来逼近损失函数，并用它来计算影响函数。在论文中，作者提出了链式损失的例子： $\max(0, 1-x)$ 它不是两次可微分的，但可以用 $\text{log}(1+exp(\frac{1-s}{t}))$ 来近似，其中 $t$ 是一个控制近似值紧密程度的超参数。作者表明，当近似值足够接近时，影响函数可以很好地预测损失的变化。换句话说，某些场景下即使违反了一些数学假设，影响函数也可以被广泛地使用！

影响函数的推导

这里是数学的重头戏，所以如果你喜欢的话，可以轻松跳过这一部分，跳到结论。对于那些有兴趣的人，我努力使推导以及数学形式尽可能的直观，所以请继续阅读。事实证明，这个推导其实并不难，只用了泰勒展开这样简单的技术。

正如我前文提到的，给定某个上调权重后的训练样本，影响函数提供了一种方法来量化测试样本的损失变化。在上调训练样本 $z$ 的权重的情况下，我们可以使用下式来表达测试集样本 $z_{test}$ 的测试损失： $\frac{1}{n}\sum_{i=1}^{n}L(\theta, z_i) + \epsilon L(\theta, z)$

我们将把影响函数定义为 $\frac{dL'}{d\epsilon}$ 。由于训练样本会通过改变最终参数来影响测试损失，我们将首先推导出表达给定训练样本加权后参数如何变化的方程。然后，我们将推导出损失的变化。在这个推导过程中，我们将假设损失是凸的（即存在一个最优的参数集），并且它是两次可微分的（即存在海森矩阵）。

首先是参数表达。我们在分析过程中会使用以下符号： $\hat{\theta}$ 和 $\hat{\theta_{\epsilon, z}}$ 。正如我们之前所介绍的， $\hat{\theta}$ 表示未作修改时的模型最优参数集（基本上是通过训练得到的参数）。 $\hat{\theta_{\epsilon, z}}$ 指的是如果我们将训练样本 $z$ 加权后得到的最优参数集。多亏了假设中损失函数是凸的，使得这两个符号便都有唯一的值，可以用如此简洁的方式来表达。
$\hat{\theta} = \text{argmin}_\theta(\frac{1}{n}\sum_{i=1}^{n}L(\theta, z_i))$
$\hat{\theta_{\epsilon, z}} = \text{argmin}_\theta(\frac{1}{n}\sum_{i=1}^{n}L(\theta, z_i) + \epsilon L(\theta, z))$

我们将多次使用原始的损失函数，所以我们定义以下符号 $R(\theta) = \frac{1}{n}\sum_{i=1}^{n}L(\theta, z_i)$ 。有了这个表达式，我们就可以通过计算如下方程中的参数集，来计算 $\hat{\theta_{\epsilon, z}}$ 的值：
$\nabla R(\hat{\theta_{\epsilon, z}}) + \epsilon\nabla L( \hat{\theta_{\epsilon, z}}, z) = 0$
因为当且仅当梯度为0时，损失将是最小的。（译者注：可以将 $\frac{1}{n}\sum_{i=1}^{n}L(\theta, z_i) + \epsilon L(\theta, z)$ 看作函数因变量 $y$ ，将 $\theta_{\epsilon, z}$ 看作自变量 $x$ ，我们的目的在于求使得 $y$ 最小时的自变量 $x$ 的取值，该值即为最优自变量，记为： $\hat{\theta_{\epsilon, z}}$ 。由于 $y$ 作为损失函数，在假设中是凸的，因此他的最小值便在一阶导数为0处取得。）

现在我们要做的就是得到满足上述条件的参数的近似表达式。我们不知道实际的损失函数是什么样子的，但我们可以做的是用泰勒展开来逼近它（这是优化中一个经典且反复出现的技术，所以最好熟悉它）。在进行泰勒展开时，我们必须选择一个点来围绕它展开。在这种情况下，最自然的扩展点是 $\hat{\theta}$ ，因为我们还没有使用它的任何属性，并且因为它是我们最了解的变量：

$\nabla R(\hat{\theta_{\epsilon, z}}) + \epsilon\nabla L( \hat{\theta_{\epsilon, z}}, z) \approx \nabla R(\hat{\theta}) + \epsilon\nabla L(\hat{\theta}, z) + [\nabla^2 R(\hat{\theta}) + \epsilon\nabla^2 L(\hat{\theta}, z)](\hat{\theta_{\epsilon, z}} - \hat{\theta})$

由于 $\hat{\theta}$ 使原始损失最小化，所以 $\nabla R(\hat{\theta})=0$ 。整理一下方程，我们可以得到：

$\hat{\theta_{\epsilon, z}} - \hat{\theta} = -[\nabla^2R(\hat{\theta}) + \epsilon \nabla^2L(\hat{\theta}, z)]^{-1}[\nabla R(\hat{\theta}) + \epsilon \nabla L(\hat{\theta}, z)]$

我们假设 $\epsilon$ 是非常小的，所以我们可以忽略所有形如 $\epsilon^2$ 在 $\epsilon$ 有很多数量级的部分。这意味着：

$\hat{\theta_{\epsilon, z}} - \hat{\theta} \approx -\nabla^2R(\hat{\theta})^{-1}\nabla L(\hat{\theta}, z)\epsilon$

由此，我们可以计算出当训练样本的权重变化时，参数的变化情况：

$\frac{d\hat{\theta_{\epsilon, z}}}{d\epsilon} = -\nabla^2R(\hat{\theta})^{-1}\nabla L(\hat{\theta}, z)$

因为 $-\nabla^2 R(\hat{\theta})$ 实际上就是海森矩阵，所以有：

$\frac{d\hat{\theta_{\epsilon, z}}}{d\epsilon} = -H_{\hat{\theta}}^{-1}\nabla L(\hat{\theta}, z)$

泰勒扩展之后，一切都只是简单的运算，没有什么太难的。剩下的唯一一步就是计算损失的变化，当我们使用链式规则的时候，这一点很容易实现：

$\frac{dL'}{d\epsilon} = \frac{dL(\hat{\theta_{\epsilon, z}}, z_{test})}{d\epsilon} = \frac{dL(\hat{\theta_{\epsilon, z}}, z_{test})}{d\hat{\theta_{\epsilon, z}}} \frac{d\hat{\theta_{\epsilon, z}}}{d\epsilon} = - \nabla_{\theta}L(\hat{\theta}, z_{test})^TH_{\theta}^{-1}\nabla_{\theta}L(\hat{\theta}, z)$