一、背景
2017年ICML的最佳论文奖被来自于斯坦福大学的Pang Wei Koh和Percy Liang拿下,论文名是《Understanding Black-box Predictions via Influence Functions》,研究内容是关于神经网络的可解释性。论文地址:[1]。
正如论文题目所表明的,本文的核心是influence function(影响函数)。这是一个来自于稳健统计学(robust statistics)的概念[2],功能是告诉我们当upweight训练样本一个无穷小的量,模型的参数是怎么变化的。
在了解本文是怎样使用influence function之前,我们先来认识下本文的背景。深度学习,尤其是神经网络,近些年来在很多领域都取得了很好的结果,如图像识别、自然语言处理和语音识别等领域。但是,一直以来困扰深度学习的一个问题是深度学习的可解释性太差了。深度学习的研究人员通过改进神经网络结构、调节模型参数和增加正则化方法等,让模型的结果越来越好,但他们并不知道模型内部做了什么让结果变得更好,因此,深度学习也被人戏称为“炼金业”,深度学习的研究人员也被称为“炼金术士”,所谓的炼金也就是指调参。而本文就是通过influence function很好地了解深度学习的“黑盒”,让深度学习拥有了一些解释性。
二、方法
本文的特色之一是其严格、完整的形式化证明,因此先来交待一下本文所研究问题的数学定义。本文研究的是从输入空间X(如图像数据)到输出空间Y(如标签数据)的一般性的预测问题。记训练样本$z_{1}, ..., z_{n}$,其中$z_{i} = (x_{i}, y_{i}) \in X \times Y$。那么经验风险最小化为:
首先,本文假设风险是二阶可微,并严格的凸函数。因为Influence function是从训练数据的视角去观察模型的学习过程,所以先尝试更改训练数据。本文共做了两方面的数据更改,一是upweight训练数据,二是disturb训练数据。
(1)upweight训练数据。
初衷是为了观察删除一个训练样本对模型的影响。删除一个训练样本$z$得到新的经验风险最小化为:(有一个疑问:这里为什么没有乘以1/(n-1)?)
但这样一个接一个地删