论文标题
Dissenting Explanations: Leveraging Disagreement to Reduce Model Overreliance 异议解释:利用分歧减少模型过度依赖
论文链接
Dissenting Explanations: Leveraging Disagreement to Reduce Model Overreliance论文下载
论文作者
Omer Reingold, Judy Hanwen Shen, Aditi Talati
内容简介
本文探讨了现代解释方法在黑盒模型可解释性中的作用,特别是在辅助决策时解释的语义理解问题。文章引入了“异议解释”的概念,即针对某个参考模型的预测结果,对另一个模型的相反预测进行解释。通过人类研究和提出的技术,文章证明了异议解释在减少模型过度依赖方面的有效性,同时不会降低人类预测的准确性。研究以欺骗性酒店评论分类任务为例,展示了异议解释如何帮助人类从正确预测的解释中获得洞察力,而不是过度依赖错误预测的解释。文章还提出了生成全局和局部异议解释的方法,这些方法在不牺牲模型准确率的情况下实现了预测的多样性。
分点关键点
1.异议解释的概念
异议解释是指对与参考模型预测相反的模型预测进行解释,旨在为人类决策者提供反对模型预测的替代论据,以减少对模型预测的过度依赖。
<