LIME的基本思想是,对于测试集中的样本进行分析,看模型(不论是机器学习还是深度学习)用了哪些特征来输出某个结果。
分析样本时,对样本进行一定程度的扰动(例如遮盖图像的超像素或者删除文章中的一些单词),使得这些经过扰动获得的点位于原样本点附近(这里的距离可以用余弦相似度或者L2距离来衡量),观察这些扰动的点的输出是什么样的,与原来的样本之间有什么变化。我们理想中的explainer会在这些扰动点附近完成很好的拟合,但不需要在所有样本点附近都完成很好的拟合。
同时,LIME要用到某个模型,这里叫做explainer,用到分类器种学到的特征,然后expaliner是个简单的模型,例如线性回归或者决策树,要满足explainer输出的结果尽可能接近分类器的输出结果。
其实我们可以看出,分类器中真正起作用的部分是他的特征抽取器,一个解释度高的模型,发挥主要作用的特征会尽可能的少。这也契合了omission方法中的研究:一个模型可解释程度越高,就会删除尽可能少的单词到达switching point.