第13周周报(11.22-11.28) About influence function_influence function证明-CSDN博客

本文链接：https://blog.csdn.net/qq_16600319/article/details/121436462

本文探讨了如何通过影响函数理解黑盒预测模型在训练数据变化时的预测结果变化。主要讨论了训练数据点的增减对模型参数及预测结果的影响，涉及损失函数、参数变化、牛顿法等概念，并提出了加权训练数据来计算影响的思路。通过求导分析了数据点权重变化对模型参数和测试样本损失的影响，为找到对模型不敏感的数据点以增强推荐系统的鲁棒性提供了一种方法。

摘要由CSDN通过智能技术生成

原文：Understanding Black-box Predictions via
Influence Functions
目标：训练数据的某一个数据改变，预测结果会有怎样的变化(影响)？
设：input space $X$ ,output space $Y$ , 训练集： $z_i =(x_i,y_i) \in X \times Y,i=1,2,\dots,n$ ;对于一个点 $z$ 以及模型参数 $\theta \in \Phi,L(z,\theta)$ 为损失函数。最小化经验函数为：
$\hat{\theta}=\arg \min_{\theta \in \Phi} \frac{1}{n} \sum_{i=1}^{n}L(z_i,\theta) \tag 1$
再理一遍目标：某一个数据变化，即 $z$ 变化，可以视为 $z$ 从有到无，预测结果发生的变化；换句话说：训练时， $z$ 从有到无，导致模型参数 $\hat{\theta}$ 发生变化，从而引起预测结果的变化，如何衡量影响的大小？（求导）
模型参数的变化： $\hat{\theta}_{-z}-\hat{\theta}$ ；（移除 $z$ 的参数减去未移除时的参数）
其中： $\hat{\theta}_{-z}=\arg \min_{\theta \in \Phi} \frac{1}{n} \sum_{i=1,z_i \neq z}^{n}L(z_i，\theta) \tag 2$

问题1：原文作者写法(下面截图)与上式不一致，不知道是不是我没有深刻理解作者的思路，还是作者有意为之，那作者为何不要求平均了呢？按照最小化经验函数是需要求平均啊，emmm…所以应该怎样理解？

继续换个思路： $n$ 个 $z$ ，一个一个移除观察参数的变化，太慢了，根据influence function:可以在 $z$ 上加一个小小的权重 $\epsilon$ 来计算参数的变化.更神奇的是，移除 $z$ 相当于加权 $\epsilon=-\frac{1}{n}$ .
加权后的参数定义为： $\hat{\theta}_{\epsilon,z}=\arg \min_{\theta \in \Phi}\frac{1}{n}\sum_{i=1}^{n}L(z_i,\theta)+\epsilon L(z,\theta) \tag 3$
对 $z$ 加权后，对模型参数 $\hat{\theta}$ 的影响(梯度)定义为：
$I_{\mathrm{up，params}}(z)=\frac{\mathrm{d}\hat{\theta}_{\epsilon,z}}{\mathrm{d}\epsilon}\vert _{\epsilon=0}=-\mathbf{H}^{-1}_{\hat{\theta}}\nabla_{\theta}L(z,\hat \theta) \tag 4$