“Why Should I Trust You?”:Explaining the Predictions of Any Classifier论文笔记
KDD 2016 原文链接
Motivation
本篇文章主要思路是在一个复杂的模型中的局部提出一个简单地可解释地模型(Explainer),以提升整个复杂模型的可解释性。
本文首先对 Explainer定了两个评价标准(criterion):
- Interpretable:即为解释output到底是由input的哪一个特征来决定的,占比又是多少。
- Local Fidelity:局部忠诚,文章中的原话是 it must correspond to how the model behaves in the vicinity of the instance being predicted。即是说解释模型对于某一些近邻样本的判别依据和被解释针对所有样本的判别依据应该是大致相同的。
实际例子
Example 1: Text classification with SVMs
如图A2,Algorithm 2所判断的文本是无神论还是有神论的主要依据是“Post”,“Host”,虽然它的Accuracy很高,但它依然不可信的。
Example 2: Deep networks for images
原文:We explain the prediction of Google’s pre-trained Inception neural network [25] in this fashion on an arbitrary image。
LIME
Fidelity-Interpretability Trade-off
一个Explainer的fidelity和interpretablity从某种程度上来说是不可兼得的,所以文章定义了如下的优化目标:
其中 g g g表示Explainer, f f f表示需要被解释地模型, π x \pi_{x} πx表示在总样本中按照sample method π ( ) \pi() π()选取的局部样本, L ( f , g , π x ) L(f,g,\pi_x) L(f,g,π