GRACE: Generating Concise and Informative Contrastive Sampleto Explain Neural Network Model’s Prediction
灵感来源:因果关系论“干预解释” 哲学“解释是对立的”
直观解释:给定一个模型的预测为标签X, GRACE介入并生成了一个被分类为Y的经过最小修改的对比样本,通过直观的文本解释,回答了“为什么是X而不是Y?”
关键词:
可解释性,相对,数据生成(ps:主要针对的数据类型是扁平化,表格化的数据)
挑战:
- 扁平化数据具有高维的相互关联特征,如果对top-k个特征进行评分,会导致信息冗余和超载
- 图片和文本能够很好的标识出模型关注的部分,但是对于扁平数据却不能给出一个容易理解的解释
- 近似决策边界并不一定能够为通常缺乏ML背景的最终用户提供关于模型决策的清晰理解,why X rather than Y
1. Explanation by Intervention(解释干预)
-
定义1干预对比解释:特征子集的一个断言P是对一个预测结果X的解释,如果满足断言P的特征的变化也会使预测结果变为Y(≠X),而其他特征不变。(这里的P可以理解为一组特征子集,这组特征子集能够对结果进行解释)
-
定义2影响得分函数:
(1 是一个指标函数,X和Y是在干预后的相应的预测结果,分数越大,P对于解释的影响就越大)
2. From Intervention to Generation(从干预到生成)
从图一,可以看出 x ~ \tilde{x} x~就是一个由断言 P 2 P_2 P2(avg_longest_capital=1.0)生成的样例,使用 P 2 P_2 P2,我们可以生成解释文本呈现给用户,比如“如果最长的大写单词的平均长度为1.0,该消息将被归类为非垃圾邮件而不是垃圾邮件”。
目标函数
最小化