论文笔记——通过影响函数理解黑盒预测（Understanding Black-box Predictions via Influence Functions）

最新推荐文章于 2024-08-16 12:35:24 发布

wei22134

最新推荐文章于 2024-08-16 12:35:24 发布

阅读量2.8k

点赞数 9

分类专栏：人工智能论文阅读笔记文章标签：神经网络人工智能深度学习机器学习算法

本文链接：https://blog.csdn.net/weixin_42582355/article/details/113061449

版权

人工智能论文阅读笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文——Understanding Black-box Predictions via Influence Functions

1. 介绍
2. 方法

1. 介绍

《Understanding Black-box Predictions via Influence Functions》

这篇paper是来自2017年的ICML best paper的，其背景在摘要部分已经写明，即为了解释黑盒预测。

所谓黑盒预测，在深度学习中，一个深层次的神经网络，往往能得到更好的预测性能和泛化能力，对于神经网络的应用层来说，通过各种方法如修改模型结构，调整参数，改造激活函以及一些训练过程中的trick优化网络性能，而对于为什么会模型能够work，还需要等待理论的发展来支撑。

在本文中，使用影响函数（统计学方法）通过学习算法跟踪模型训练数据对预测的影响，从而确定对预测集（测试集）影响最大的训练点。

How can we explain the predictions of a black- box model? In this paper, we use influence func- tions — a classic technique from robust statis- tics — to trace a model’s prediction through the learning algorithm and back to its training data, thereby identifying training points most respon- sible for a given prediction.

通过摘要可以看到，这篇paper是从数据点的角度，探究训练点对于测试集的影响。

第一章是Introduction，主要介绍一下机器学习黑盒系统的背景，

A key question often asked of machine learning systems is “Why did the system make this prediction?”

从第二章Approach开始介绍方法

2. 方法

一些定义

训练点定义
即每个 $z_i$ 就是一个训练点， $x$ 为输入， $y$ 为输出，有 $n$ 个训练点。
$z_1, . . . , z_n,\\其中： z_i = (x_i, y_i) ∈ X × Y$
2.训练点与参数 $\theta$ 定义损失 $l o s s$
对于每个点 $z$ 和 $\theta$ ，令
$\theta)=loss$

$\theta$ 为需要学习的参数，如在线性回归中， $\hat{y}_{i}=x_{i1}\theta_{1}+x_{i2}\theta_{2}+...+x_{im}\theta_{m}$
即每个训练点 $x_{i}$ 的预测值 $\hat{y}_{i}$ 由 $m$ $个\theta$ 参数和x的m个特征相乘求和。再与实际值 $y_{i}通过损失函数$ $loss\_func(\hat{y}_{i}, y_{i})计算损失$ 。而在神经网络中 $\hat{y}_{i}$ 的表达式往往更复杂，但本质也是通过参数 $\theta$ 和 $z$ 计算，故使用通用符合 $\theta)=loss$

经验风险损失最小化下的参数 $\theta$
通常我们认为线性回归在神经网络中，其损失达到最小的时候，即损失收敛，我们此时的参数 $\hat{\theta}$ 即为需要求的最优 $\theta$ ,定义如下。
$\hat{\theta} = arg \min_{\theta \in \Theta } \frac{1}{n} {\textstyle \sum_{i=1}^{n}L(z_{i},\theta)}$

2.1 增重一个训练点

Upweighting a training point

由2.1中的关于训练点的定义，当从训练集删除一个训练点 $z$ 时，参数 $\hat{\theta}$ 变为 $\hat{\theta}_{-z}$ ，此时参数的变化为： $\hat{\theta}_{-z}-\hat{\theta}$ ，而 $\hat{\theta}_{-z}$ 定义为

$\hat{\theta}_{-z} = arg \min_{\theta \in \Theta } \frac{1}{n} {\textstyle \sum_{z_{i}\ne z}^{}L(z_{i},\theta)}$

即删除一个训练点后，重新训练，并找出其损失函数收敛时候的 $\hat{\theta}_{-z}$

而幸运的是，影响函数给了我们一个有效逼近.

Fortunately, influence functions give us an efficient approximation.

思想是计算 $z$ 的改变量，对 $\theta$ 的影响，假如对 $z$ 施加一个小的影响因子 $\epsilon$ ，新的参数即改变为 $\hat{\theta}_{\epsilon, z}$ ，定义如下
$\hat{\theta}_{\epsilon, z} = arg \min_{\theta \in \Theta } \frac{1}{n} {\textstyle \sum_{i=1}^{n}L(z_{i},\theta) } + \epsilon L(z, \hat{\theta})$

在1982年的文献中，这种方式计算 $z$ 的改变量对于参数 $\hat{\theta}$ 的影响有解，如下

A classic result (Cook & Weisberg, 1982) tells us that the in- fluence of upweighting z on the parameters $\hat{\theta}$ is given

$I_{up, params}(z) = \frac{\mathrm{d} \hat{\theta}_{\epsilon, z} } {\mathrm{d} \epsilon } \mid_{\epsilon = 0}= -H^{-1}_{\hat{\theta}}\nabla_{\theta}L(z,\theta)$
其中 $H_{\hat{\theta}}={\textstyle \sum_{i=1}^{n} \nabla^{2}_{\theta}L(z, \hat{\theta} )}$ 为海森矩阵，并且假设其正定。

由于当 $\epsilon = −\frac{1}{n}$ 时相当于将 $z$ 移除，可以线性逼近移除 $z$ 后的参数变化 $\hat{\theta}_{-z}-\hat{\theta} \approx −\frac{1}{n}I_{up, params}(z)$ ，而不用重新训练模型。

Since removing a point $z$ is the same as upweighting it by $\epsilon = −\frac{1}{n}$ , we can linearly approximate the parameter change due to removing $z$ by computing $\hat{\theta}_{-z}-\hat{\theta} \approx I_{up, params}(z)$ , without retraining the model.

之后，基于上述方法，作者提出：当更新训练点 $z$ 后，在测试集上的loss会改变多少。可以得到一个闭式的解如下，
$\begin{aligned} I_{up, loss}(z, z_{test}) & = \frac{\mathrm{d} L(z_{test}, \hat{\theta}_{\epsilon, z} )}{\mathrm{d} \epsilon } \mid_{\epsilon = 0} \\& = \nabla_{\theta}L(z_{test},\hat{\theta})^{T} \frac{\mathrm{d} \hat{\theta}_{\epsilon, z}}{\mathrm{d} \epsilon } \mid_{\epsilon = 0} \\&=-\nabla_{\theta}L(z_{test},\hat{\theta})^{T}H^{-1}_{\hat{\theta}}\nabla_{\theta}L(z_, \hat{\theta}) \end{aligned}$

2.2 干扰一个训练输入

Perturbing a training input

作者通过反事实进一步研究细化影响的概念，若干扰模型的输入，则对于预测会发生什么变化。

Let us develop a finer-grained notion of influence by studying a different counterfactual: how would the model’s pre- dictions change if a training input were modified

对于一个训练点 $z = (x, y)$ ,定义:
$z_{\delta}=(x+\delta, y)$ .

即对样本点施加干扰从 $\to z_{\delta}$ ,
令 $\hat{\theta}_{z_{\delta}, -z}$ 为训练点 $z$ 替换为 $z_{\delta}$ 后，训练损失的最小经验风险，即损失收敛处的参数值。

相当于 $z$ 替换为 $z_{\delta}$ 后，重新训练， $\hat{\theta}_{z_{\delta}, -z}$ 为重新训练后的参数。

即此时参数的改变为
$\hat{\theta}_{z_{\delta}, -z}- \theta$

为了逼近 $\hat{\theta}_{z_{\delta}, -z}- \theta$ ，定义从 $\to z_{\delta}$ ：

$\hat{\theta}_{\epsilon, z_{\delta},-z} = arg \min_{\theta \in \Theta } \frac{1}{n} {\textstyle \sum_{i=1}^{n}L(z_{i},\theta) } + \epsilon L(z_{\delta}, \theta)-\epsilon L(z, \theta)$

得到：
$\begin{aligned} \frac{\mathrm{d} \hat{\theta}_{\epsilon, z_{\delta},-z} }{\mathrm{d} \epsilon} \mid_{\epsilon=0} &=I_{up, params}(z_{\delta})- I_{up, params}(z) \\&=-H^{-1}_{\hat{\theta}}(\nabla_{\theta}L(z_{\delta},\theta)-\nabla_{\theta}L(z,\hat{\theta})) \end{aligned}$

因此，同样有 $\hat{\theta}_{z_{\delta}, -z}- \theta \approx -\frac{1}{n} ( I_{up, params}(z_{\delta})- I_{up, params}(z))$ ,

给出了从 $\to z_{\delta}$ 的一个影响估计值。
上诉例子中， $\delta$ 为施加于x输入中，即 $\to (x+{\delta}, y)$ ，
同样的结论适用于 $y$ 的扰动， $\to (x, y+{\delta})$

Analogous equations also apply for changes in y.

虽然影响函数似乎只适用于无穷小（因此是连续的）扰动，但需要注意的是，这种近似适用于任意 $\delta$ ： $\epsilon$ -更新方法允许在 $z$ 和 $z_δ$ 之间进行平滑插值。这对于离散数据（例如，在NLP中）或离散标签的处理特别有用。

While influence functions might appear to only work for infinitesimal (therefore continuous) perturbations, it is important to note that this approximation holds for arbitrary $\delta$ : the $\epsilon$ -upweighting scheme allows us to smoothly interpolate between $z$ and $z_δ$ . This is particularly useful for working with discrete data (e.g., in NLP) or with discrete label changes.

如果 $x$ 是连续且小，以下

$\begin{aligned} \frac{\mathrm{d} \hat{\theta}_{\epsilon, z_{\delta},-z} }{\mathrm{d} \epsilon} \mid_{\epsilon=0} &=I_{up, params}(z_{\delta})- I_{up, params}(z) \\&=-H^{-1}_{\hat{\theta}}(\nabla_{\theta}L(z_{\delta},\theta)-\nabla_{\theta}L(z,\hat{\theta})) \end{aligned}$

可以得到一个进一步的逼近.
假定x的输入域 $\chi \in \mathbb{R} ^d$ , 参数域 $\Theta \in \mathbb{R} ^d$ , $L$ 对于 $\theta$ 和 $x$ 可微，
当 $\left \| \delta \right \| \to 0$ 时
$(\nabla_{\theta}L(z_{\delta},\theta)-\nabla_{\theta}L(z,\hat{\theta})) \approx (\nabla_{x}\nabla_{\theta}L(z,\hat{\theta}))\delta$

代入原式中，得
$\begin{aligned} \frac{\mathrm{d} \hat{\theta}_{\epsilon, z_{\delta},-z} }{\mathrm{d} \epsilon} \mid_{\epsilon=0} &=I_{up, params}(z_{\delta})- I_{up, params}(z) \\&=-H^{-1}_{\hat{\theta}}(\nabla_{\theta}L(z_{\delta},\theta)-\nabla_{\theta}L(z,\hat{\theta})) \\&= -H^{-1}_{\hat{\theta}}(\nabla_{x}\nabla_{\theta}L(z,\hat{\theta}))\delta \end{aligned}$

因此 $\hat{\theta}_{z_{\delta}, -z}- \theta \approx -\frac{1}{n} H^{-1}_{\hat{\theta}}(\nabla_{x}\nabla_{\theta}L(z,\hat{\theta}))\delta$

使用链式法则对 $\delta$ 微分得到：

$\begin{aligned} I_{pert, loss}(z, z_{test})^T & = \nabla_{\delta}L(z_{test},\hat{\theta}_{z_{\delta},-z})^{T} \mid_{\delta= 0} \\&=-\nabla_{\theta}L(z_{test},\hat{\theta})^{T}H^{-1}_{\hat{\theta}}\nabla_{x}\nabla_{\theta}L(z,\hat{\theta}) \end{aligned}$