目录
1. 按照逻辑规则解释(Rule as Explanation)
什么是可解释性
理想情况下,严谨的数学符号-逻辑规则是最好的解释。 但是实际上人们往往不强求“完整的解释”,只需要关键信息和一些先验知识。
不同领域的模型解释需要建立在不同的领域术语之上,不可能或者目前难以用数学逻辑符号来解释。例如计算机视觉中的image patches,NLP中的单词等。而可理解的术语可以理解为计算机跟我们人类能够沟通的语言。以前我们很多研究关于人类跟计算机表达的语言例如计算机指令,现在是反过来计算机根据现有的模型给我们解释。
Lipton 的 文章 The Mythos of Model Interpretability 试图说明什么是可解释性,他在文章中问了很多发人深思的问题。比如,我们什么时候需要可解释能力?如果一个模型的精确度很高,百分百正确,我们可能不需要可解释能力。如果一个模型精度不够高,我们就会急切想知道机器为何出错。如果机器出错的地方,也是人类出错的地方,那么人们可能将心比心,不会削弱对机器的信任。对于人类不容易出错,但机器却出错的地方,人类对机器的信任度就会急剧降低。比如对抗样本攻击,在熊猫图片中加些精心设计的噪声,人类仍然能容易的识别出是熊猫,机器却会将其判断为长臂猿。这时候,人类就急切的需要知道机器为何会做出这种判断。人类需要可解释能力的另一个原