ExpMRC: Explainability Evaluation for Machine Reading Comprehension

ExpMRC: Explainability Evaluation for Machine Reading Comprehension 论文阅读

论文地址:https://arxiv.org/abs/2105.04126
github:https://ymcui.github.io/expmrc/

摘要

机器阅读理解(Mechine Reading Compehension - MRC)领域随着近年来强大的预训练模型如BERT的出现从而其能力能够达到人类阅读理解的水平,但是有两个问题第一,机器阅读理解并没有给出它做出此答案的依据和解释;第二,达到人类的理解水平还是需要预训练模型,是否能够在半监督和无监督的领域内也达到这种水平?本文对第一个问题做了着重解答,提出了一种新的ExpMRC,即可解释的MRC,并且在四个不同的数据集上进行了验证。

背景

机器阅读理解是一项需要机器进行阅读、理解给定文章并回答问题的任务,近年来受到了广泛关注,前人设计了很多的数据集以及众多有效的模型。近年来在一些强大的预训练语言模型的加持下,某些system在一些数据集上取得了超于普通人类认知水平的性能。

但是这些系统的不具备可靠的解释性,使得在日常使用的时候存在担忧,由于并不知道这些预测模型的结果是靠什么信息得出来的,从而无法说服使用者。所以在此背景下,MRC的可解释性就显得尤为重要,可解释的人工智能(Explainable Artificial Intelligence - XAI)应运而生。NLP领域内的一种合适的Post-hoc方法就是生成文本解释,也就是将学习预测过程中得出最终结果的依据输出,从而增强可解释性。

因此本文提出了一种可用于多语言多任务的MRC benchmark — ExpMRC,它在输出一行跨段落的文字或者某些选项中的一个选项作为预测答案的同时,还要输出一行跨段落的文字来作为评估最终答案的依据,实验使用了四个不同的数据集:SQuAD、CMRC 2018、RACE+和C3,实验结果表明ExpMRC解释预测答案方面仍远不能令人满意, ExpMRC 还存在很大的进步空间。

上图分别展示了ExpMRC在四个数据集中的输出内容,既包括了依据此段落所提出的问题的答案又包含了推断出此答案的原文里的依据,对于不同类型的问题存在不同类型的答案输出。

数据集来源

在这里插入图片描述

本文实验用到了四个数据集,即SQuAD、CMRC 2018、RACE+和C3。其中SQuAD、CMRC 2018是用于span-extraction MCR任务,分别是英文和中文语料库,来源于Wikipedia;RACE+和C3用于multi- choice MRC,也分别是英文和中文语料库。

RACE+来源于一些作者收集的多选 MRC 数据,它类似于 RACE数据集,是为初中和高中学生们设计的。更重要的是,这些数据包含对回答过程的额外提示,这对证据注释非常有帮助。因此,将这个新的子集表示为 RACE+

数据的筛选准则:

  • 文中线索仅仅是问题和答案的简单组合,没有太多的语法句法变化
  • 解决问题需要引用外部知识,而不能仅从文章内容中推断出来
  • 整篇文章的总体结论性问题,例如“这段文章的最好标题是什么?”,“这段文章的主要思想是什么?”

上述问题并不适合用作标记文章线索的问题,要么仅仅是是线性拼接过于简单,要么无从在文章中找到线索,亦或是需要对文章进行总体把握才能得出答案的问题,对于文章的每一个段落都有需要提取的信息点,从而增大了计算复杂度。需要在最开始的时候就要将其筛选出来。

过滤以后,通过对四个数据集的全部问题类型的分析可知,RACE+和C3两个数据库中存在较少的询问时间地点人物的问题,这些问题由于答案很单一,所以很容易被检索到,故这两个数据库的检索难度比其他两个高。
在这里插入图片描述

Baseline

本节分两类来介绍ExpMRC Baseline,所有问题的标准答案都是通过预训练模型来生成。

非监督学习

对于非监督学习的方法,要想得到寻找答案的文中线索,主要使用工具的是文章后面提出的问题以及问题给的选项,让它们与文章中某个段落分割开来的句子进行对比,具体方法可以分为几类:

  • Most Similar Sentence: 将问题(选择题)的选项和文中的句子进行对比,计算出F1分数,选择分数最高的那一个选项。
  • Most Similar Sentence with Question: 和上一个方法类似,只是将问题的题干也作为计算F1分数的一个关键点。
  • Answer Sentence: 是span-extraction MCR中所特有的,即直接在文章中提取包含预测答案的文字作为预测线索。

这些方法用于非监督学习,其效果会随着文章问题的选项或答案质量好坏,换言之就是与文章内容的契合度而受到影响,如果答案与文章内容之间的;联系比较隐晦,就不一定有较大的几率能够找到我们想要的答案或者线索。

机器学习

由于 ExpMRC 中没有提供训练数据,本文一种“伪训练”方法来完成机器学习baseline。首先为各个训练集中的每个样本生成 pseudo evidence,其中没有证据注释。本文使用ground truth answer和question text找到原文中最相似的段落句子作为伪证据,形成伪训练数据。然后我们使用伪训练数据和 PLM 来训练一个模型,该模型输出答案预测和证据预测。
在这里插入图片描述
上图展示了对于两类不同的问题所对应的伪训练数据的训练模型。

  • Multi-Choice MRC:将段落、问题和每个选项的串联输入 PLM 以获得四个并列表示(假设我们有四个候选选项),然后再使用具有 softmax 激活的全连接层来预测最终选择。
  • Span-Extraction MRC:将问题和段落的串联输入PLM,并使用带有两个全连接层的最终隐藏层输出表示来预测答案范围的开始和结束位置。

在Span-Extraction MRC中,有: p s = softmax ⁡ ( h w s + b s ) p^{s}=\operatorname{softmax}\left(\boldsymbol{h} \mathbf{w}^{\mathbf{s}}+b^{s}\right) ps=softmax(hws+bs) p e = softmax ⁡ ( h w e + b e ) p^{e}=\operatorname{softmax}\left(\boldsymbol{h} \mathbf{w}^{\mathbf{e}}+b^{e}\right) pe=softmax(hwe+be) L E = − 1 2 N ∑ i = 1 ( y i s log ⁡ p s + y i e log ⁡ p e ) \mathcal{L}_{E}=-\frac{1}{2 N} \sum_{i=1}\left(y_{i}^{s} \log p^{s}+y_{i}^{e} \log p^{e}\right) LE=2N1i=1(yislogps+yielogpe)
其中, p s p^{s} ps p e p^{e} pe分别是在段落中,预测答案开始和结束位置的概率, L E \mathcal{L}_{E} LE是evidence prediction loss,而final training loss L \mathcal{L} L是由 L A \mathcal{L}_{A} LA L E \mathcal{L}_{E} LE组成的,即: L = L A + λ L M \mathcal{L}=\mathcal{L}_{A}+\lambda \mathcal{L}_{M} L=LA+λLM其中, λ ∈ [ 0 , 1 ] \lambda \in[0,1] λ[0,1]

验证与评估

对于答案评估,本文使用 F1 分数 来评估 SQuAD 和 CMRC 2018数据集,为了简单起见,本文仅评估了 F1,由于这些数据集使用不同的语言,因此评估细节略有不同。对于 RACE+ 和 C3,则使用准确性进行评估。
对于线索评估,本文也使用了 F1 指标,并且还提供了一个整体的 F1 指标来对系统进行综合评估。对于每个problem,本文计算答案质量和线索质量的分数。每个实例的整体 F1 是通过将这两项相乘获得的。最后,通过对所有problems的F1 求平均得到所有problem的整体 F1。总体 F1 反映了答案及其证据的正确性,即 F 1 overall  = F 1 answer  × F 1 evidence  \mathrm{F} 1_{\text {overall }}=\mathrm{F} 1_{\text {answer }} \times \mathrm{F} 1_{\text {evidence }} F1overall =F1answer ×F1evidence 
作为参照,本文使用了每个数据集中的真实人类标注的问题答案,这些答案是通过借鉴参考答案或者提示来标注的,故暂时可以认为是人类认知的上限水平。

实验结果

在这里插入图片描述
总的来说,表现最好的baseline仍然远远落后于人类的表现,这表明所提出的数据集具有挑战性。此外,Multi-Choice MRC子集中模型的表现与人类表现差距大于Span-Extraction MRC中的差距。

对于Span-Extraction MRC,直接寻找段落中类似答案表述,即上文中Answer Sentence方法更有效,因为答案跨段落的,并且其线索通常围绕其上下文。相反,伪数据训练方法在 Multi-Choice MRC 中更有效,其中选项不是由段落跨度组成的,不能直接对应映射,它需要语义上的相似性计算。

答案和线索预测的改进并不一定会提高总分。例如,在 C3 的开发集中,伪数据训练baseline在答案和线索预测上都比其他方法产生更好的性能。但是,其总分 50.7 低于表现最佳的baseline — 50.9。

在 C3 中使用大型 PLM(dev +3.3 ,test +2.4),这表明使用pseudo evidence有助于提高答案预测,我们预计当我们使用更有效的方法来提取高质量的pseudo evidence时,可能还会有其他的改进。

在这里插入图片描述
为了平衡 L A \mathcal{L}_{A} LA L E \mathcal{L}_{E} LE之间的比率,我们在 L E \mathcal{L}_{E} LE上应用了 λ \lambda λ项。为了探索 λ \lambda λ项的影响,我们选择不同的 λ ∈ [ 0 , 1 ] \lambda\in [0,1] λ[0,1],并绘制每个任务的 5 次运行平均性能。结果如上图所示。

总的来说,我们可以看到,通过增加 λ \lambda λ项,Evidence Acc and All Acc 普遍下降,表明pseudo evidence训练不能像原始监督任务训练(答案预测)那样,因为pseudo evidence不是由黄金数据构成的。然而,当涉及到answer acc 时,我们观察到与Multi-Choice MRC相比,Span-Extraction MRC对 λ \lambda λ项的敏感度较低。

在这里插入图片描述
最后,本文分析了可能实现更好的证据提取性能的方法。除了“找出问题最相似的句子”(MSS w/ Ques.)和“预测答案句子”(PA Sent.)之外,我们还提供了两个额外的baseline。我们提取包含真实答案(GA Sent.)或带注释的线索(GE Sent.)的句子来衡量那些只提取句子级线索的系统的性能上限。结果如上表所示。

可以看到,Span-Extraction MRC 中 PA-GA 和 GA-GE 的差距非常小(大约 3%∼5%),表明当前系统在仅使用句子级线索时即将达到天花板性能。相反,在Multi-Choice MRC中,我们看到了他们之间还存在比较大的差距。

(个人首篇文章,望多指教)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值