《Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection》阅读笔记

本文提出了一种名为HEDGE的方法,通过检测特征交互来构建层次化的文本分类解释,增强了模型的可解释性。HEDGE将句子分割成多个层次,评估词或短语对预测结果的贡献,解决了现有方法仅关注局部解释的问题。实验显示,HEDGE在AOPC、Log-odds和Cohesion-score评估中表现出色,特别是在BERT模型上。
摘要由CSDN通过智能技术生成

1 Why

神经网络的可解释性对于其在现实生活中的应用有重要的意义。现存的方法只是单独提取输入句子的词或短语作为自然语言处理模型的解释特征,将模型预测结果按贡献程度归到单独的词或短语,没有考虑到它们之间的交互关系,只提供了局部的解释性,使得模型的解释性不强,因此需要将词或短语的交互关系和模型预测结果联系起来,从而更好地解释模型的运行机制。
在这里插入图片描述
例如LIME和CD两种方法分别捉住了waste和waste of 两个关键词,并赋予相应的贡献度,再根据各个词语对句子正负情绪判断的贡献度将句子判断为负,但是只考虑了局部的解释性,没办法很好地解释good performance这个短语对于这整个句子被判断为负的贡献程度。

2 What

所以本文提出了通过检测特征交互来构建层次化的解释,构建的这些解释能够可视化不同的词组和短语在不同的特征层次中是怎么组合发挥作用的,进一步让人们明白模型的运作原理。本文提出的模型为model-agnostic方法,称为HEDGE,其根据句子中词或短语之间最弱的连接将句子分割,并赋予每个部分贡献值,最后形成对模型结果的多粒度的层次化的解释。例如上面的例子,本文的模型能够判断出good是从属于waste的,所以就能很好得解释为什么整个句子在good存在的情况下还被判断为负的情况。

3 How

3.1 algorithm on building hierarchical explanations

算法由两部分组成:1 detecting和2 quantifying,整个算法流程如图,第6步的Equation 1 就是detecting,第9步是quantifying,整个流程基本是这两步的交替,既寻找分割点和赋予贡献度。
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值