SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
链接
论文原文:
SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
源代码等全部信息:
今天先看摘要吧
Abstract
We introduce SELFEXPLAIN, a novel selfexplaining model that explains a text classifier’s predictions using phrase-based concepts.
self explain,一种新型的自解释模型。解释了啥呢,哦是一种基于短语概念的文章分类器的预测过程。
SELFEXPLAIN augments existing neural classifiers by adding (1) a globally interpretable layer that identifies the most influential concepts in the training set for a given sample
and (2) a locally interpretable layer that quantifies the contribution of each local input concept by computing a relevance score relative to the predicted label.
上来就:增强了现有的神经元分类器,通过加了两个层:
(这里先把interpretable认为是可解释的吧,后面发现不对再改)
- 一个全局可解释的层:识别出最有影响力的短语概念(从给定样本的训练集里面)
- 一个局部可解释的层:量化每一个局部的输入的概念(对于预测结果的)贡献,通过计算它们和预测结果的相关度得分。
到现在涉及到层咋连的,长啥样,还有这个相关度是咋计算的。
Experiments across five text-classification datasets show that SELFEXPLAIN facilitates interpretability without sacrificing performance.
Most importantly, explanations from SELFEXPLAIN show sufficiency for model predictions and are perceived as adequate, trustworthy and understandable by human judges compared to existing widely-used baselines.1
对五个文本分类数据集的实验表明,SELFEXPLAIN在不牺牲性能的情况下促进了可解释性。
最重要的是,来自SELFEXPLAIN的解释显示了模型预测的充分性,
并且与现有的广泛使用的准则相比,人类法官认为是充分的,可信的和可理解的。
摘要小结
看到这里,大概知道是一个什么任务了:提高分类器的可解释性,和自解释模型有关系
于是呢,去简单补充了一下相关概念:
可解释性
近年来,深度神经网络正在计算机视觉、自然语言处理和语音识别等多种领域发挥着重要作用,推动了人工智能的发展。但是,深度神经网络仍存在一些局限性,例如这些模型的决策过程通常无法向用户解释。
但同时,在医疗、金融、法律等各个领域,了解人工智能系统决策制定背后的原因至关重要。因此,研究人员已经探索出了解释神经模型的一些方向。
简单来说,神经网络深度学习具有不可解释的特点,但是伦理问题需要它做出解释。需要知道我们预测的结果为什么,过程可不可靠。于是就有了模型可解释性的这样一个研究内容。
自解释模型
事后解释是旨在解释已经训练和固定的目标模型的独立方法。
例如 LIME(Ribeiro 等人于 2016 年提出)就是一种事后解释方法,它通过在模型预测的邻域上学习可解释的模型(如线性回归)来解释目标模型的预测。如前文所述,这种解释方法针对的是文本 token 和图像超像素,即所谓的基于特征。
事后: (反正是全都训练完了,然后试图从结果解释)
自解释模型是目标模型,
这些模型将解释生成模块集成到自身架构中,以便它们为自己的预测提供解释。从较高的层面而言,自解释模型具有两个相互关联的模块:预测器模块,即模型中专门用于预测手头任务的部分;解释生成器模块,作为模型的一部分,它为预测器所做的预测提供解释。
此外,自解释模型不是必须对解释做出监督。
自解释:模型的一部分,在模型训练和预测中间,信息路过解释器模块,显示一些信息。