机器学习可解释性（三）——影响函数（Influence function）推导

最新推荐文章于 2024-06-07 09:54:26 发布

HMoS

最新推荐文章于 2024-06-07 09:54:26 发布

阅读量9.3k

点赞数 27

分类专栏：机器学习可解释性文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/shuaibuzhi1mian/article/details/126726015

版权

机器学习可解释性专栏收录该内容

4 篇文章

订阅专栏

影响函数（Influence function）推导

参考 Understanding Black-box Predictions via Influence Functions论文附录。

一、概述

影响函数是一个应用广泛的统计学习概念，在 Residuals and influence in regression 书中也有提及。可以用来衡量样本对模型参数的影响程度，也就是样本的重要性。在参考的论文中被用于提供模型的解释，实现机器学习算法的可解释性。

常规想法中，改变一个样本的的权重往往需要重新定义数据集或损失函数，重新训练模型，需要耗费很长的时间和大量的计算资源。影响函数的提出就是为了解决这个问题，在不改变模型的情况下获得相近的重要性度量结果。

如果不关心推导的同学可以直接看结论。

二、结论

假设有 $n$ 个训练样本 $z_1,...,z_n$ ，其中 $z_i=(x_i,y_i)$ ，令 $L(z,\theta)$ 表示样本 $z$ 在模型参数为 $\theta$ 下的损失函数，则经验风险为

$R(\theta)=\frac{1}{n}\sum_{i=1}^{n}L(z_i,\theta) \tag{1}$

根据经验风险最小化（ERM），得到的模型参数为：

$\hat{\theta}=arg \mathop{\min}_{\theta}\frac{1}{n} \sum_{i=1}^{n}L(z_i,\theta) \tag{2}$

研究改变某个训练样本 $z$ 的权重对 $\theta$ 的影响。将该样本 $z$ 在训练集中的权重增加 $\epsilon$ ，这时根据ERM得到的模型参数变为

$\hat{\theta}_{\epsilon,z}=arg \mathop{\min}_{\theta}(\frac{1}{n} \sum_{i=1}^{n}L(z_i,\theta)+\epsilon L(z,\theta)) \\ =arg \mathop{\min}_{\theta}[R(\theta)+\epsilon L(z,\theta)] \tag{3}$

那么，模型参数的变化与训练样本权重变化的关系，被称作影响函数（influence function）。

$\mathcal{I}_{up,params}(z)=\frac{d\hat{\theta}_{\epsilon,z}}{d\epsilon}\big|_{\epsilon=0} =-H_{\hat{\theta}}^{-1}{\nabla}L(z,\hat{\theta}) \tag{4}$

其中，海森矩阵（Hession Matrix）表达式为：

$H_{\hat{\theta}}=\nabla^2R(\hat{\theta}) =\frac{1}{n}\sum^{n}_{i=1}\nabla^2_{\theta}L(z_i,\hat{\theta}) \tag{5}$

公式（4）可以理解为，为一个样本改变权重，用模型参数对这种改变的敏感程度来衡量该样本对整个模型的重要性。

三、推导

接下来介绍推导过程。公式（1-3）的叙述过程在这里不再赘述，主要介绍如何由公式（3）导出公式（4）的结论。

首先，定义变量 $\Delta_{\epsilon}=\hat{\theta}_{\epsilon,z}-\hat{\theta}$ 来衡量参数 $\theta$ 的变化量，这里需要注意 $\hat{\theta}$ 也就是给样本增加权重之前的经验风险最小化得到的参数结果，因此它和 $\epsilon$ 无关。于是我们有：

$\frac{d\hat{\theta}_{\epsilon,z}}{d\epsilon} =\frac{d\Delta_{\epsilon}}{d\epsilon} \tag{6}$

因为 $\hat{\theta}_{\epsilon,z}$ 是公式（3）中的最小化结果，因此满足一阶导条件，也就是对 $\theta$ 的一阶导数为零。

$0=\nabla R(\hat{\theta}_{\epsilon,z})+ \epsilon \nabla L(z, \hat{\theta}_{\epsilon,z}) \tag{7}$

接下来，以为当 $\epsilon$ 趋于0时， $\hat{\theta}_{\epsilon,z}$ 趋于 $\hat{\theta}$ ，我们将公式（7）的右侧做一阶泰勒展开，也就是将 $\hat{\theta}_{\epsilon,z}$ 在 $\hat{\theta}$ 附近展开，得到：

$0\approx [\nabla R(\hat{\theta})+ \epsilon \nabla L(z, \hat{\theta})]+ [\nabla^2 R(\hat{\theta})+ \epsilon\nabla^2 L(z, \hat{\theta})]\Delta_\epsilon \tag{8}$

这里，我们去掉了 $o(||\Delta_\epsilon||)$ 项，从公式（8）中求解出 $\Delta_\epsilon$ ，得到：

$\Delta_\epsilon\approx -[\nabla^2 R(\hat{\theta})+ \epsilon\nabla^2 L(z, \hat{\theta})]^{-1} [\nabla R(\hat{\theta})+ \epsilon \nabla L(z, \hat{\theta})] \tag{9}$