区分信任的两个不同的(但相关的)定义很重要:
(1)信任预测,即用户是否充分信任单个预测,以便基于该预测采取一些行动;
(2)信任模型,即用户是否信任模型在部署时以合理的方式运行。
这篇文章提出为单个预测提供解释作为“信任预测”问题的解决方案,并选择多个这样的预测(和解释)作为“信任模型”问题的解决方案。我们的主要贡献总结如下。
•LIME,一种算法,通过使用可解释的模型对其进行局部近似,以忠实的方式解释任何分类器或回归器的预测。
•SP-LIME,一种通过子模块优化选择一组具有代表性的实例和解释来解决“信任模型”问题的方法。
通过“解释预测”,我们指的是呈现文本或视觉伪影,这些伪影能够定性地理解实例组件(例如文本中的单词、图像中的补丁)与模型预测之间的关系。
图1说明了解释单个预测的过程。很明显,如果能提供清晰的解释,医生在模型的帮助下更容易做出决定。在这种情况下,解释是一个带有相对权重的症状列表-这些症状要么对预测有贡献(绿色),要么是对预测不利的证据(红色)。
图1:解释个别预测。一个模型预测一个病人患有流感,lime强调病人病史中的哪些症状导致了这种预测。打喷嚏和头痛被认为是导致“流感”预测的因素,而“没有疲劳”则是反对的证据。有了这些,医生就可以对模型的预测做出明智的决定。(绿色的特征促进预测流感,红色的特征阻碍预测流感)