模型可解释性的定义,我认为比较合理的一个:可解释性是指模型能够使用人类可认知的说法进行解释和呈现。
是模型的什么性质使得模型可解释,有些将模型的可解释性等同于模型的可理解性,也就是我们可以掌握模型的工作原理。这些可理解的模型有时候被称作是透明的,无法理解的模型便被称为黑盒。我们接下来又会很自然地想到什么构成了透明度。一些人将可理解性指向算法本身,另一些人则理解为算法的复杂度。
可解释性的动机
人们需要模型可解释性是因为仅仅根据预测来判断模型是不足够的。我们训练模型以实现强大的预测能力,优化简单目标,例如准确性和AUC或它们的替代损失函数。但是这些简单的目标忽视了我们调用机器学习算法时更广阔的环境。
可信性:一些文章表明可解释性是可信性的前提。但是什么是可信性,可信性可以主观理解为一定程度上的舒适性。 人们会对理解得很好的模型感到舒适,纵使可理解性并不是我们的主要需求。或者可以说,当训练数据和目标函数不同时,信任可能表示对模型在实际目标方面表现良好的信心。
因果关系:尽管仅对监督学习模型进行了训练(就其优化器所知)以建立关联,但我们仍可以使用它们来推断属性或生成关于现实世界的假设。例如,简单的回归模型可以揭示沙利度胺的使用与出生缺陷或吸烟与肺癌之间的强烈关联
可转移性:
信息性
可解释性模型的性质
现在,我们考虑为了实现或包含可解释性,模型应该具备什么性质。 这些性质大致分为两类。 第一个与透明度有关,即模型如何运作? 第二种是事后解释,即模型还能告诉我什么?
透明度
非