【论文笔记】A Feedback-Enhanced Two-Stage Framework for judicial machine reading comprehension

小白冲鸭

已于 2023-11-01 20:22:48 修改

阅读量146

点赞数 1

文章标签：论文阅读自然语言处理

于 2023-11-01 20:06:45 首次发布

本文链接：https://blog.csdn.net/m0_56367027/article/details/134168815

版权

标题：A Feedback-Enhanced Two-Stage Framework for judicial machine reading comprehension 用于法律机器阅读理解的反馈增强两阶段框架

年份：2023年

期刊：Engineering Applications of Artificial Intelligence

作者：Zhiqiang Lin, Fan Yang, Xuyang Wu, Jinsong Su, Xiaoyue Wang

摘要：

机器阅读理解（MRC）是教机器根据给定文本理解并回答问题。在司法领域，MRC通常要求具有可解释性，这意味着模型不仅要正确回答问题，还要提供支持的证据句子。用简单方法独立地处理这两个任务，会忽略它们之间的关系，导致注释信息的丢失。为了更好地利用有限的司法MRC标注数据，我们受到人类解决MRC问题时所使用策略的激励，提出了用于机器阅读理解反馈增强的两阶段框架(FETSF-MRC)。该框架由两个级联模块组成：（1）略读模块，识别证据句子；（2）精读模块，关注证据以识别候选答案，并未略读模块提供反馈。在两个中文司法阅读理解数据集（CJRC，CAIL2020）和一个开放领域的英文数据集HotpotQA上的实验表明，相较于几个基线，FETSF-MRC取得了卓越的性能。在CJRC和CAIL2020数据集上，FETSF-MRC的联合F1得分分别优于最佳基线1.12%和1.49%，并在HotpotQA上取得了73.74%的联合F1得分。

关键词：

机器阅读理解，司法问答，两阶段训练，注意力

1 引言

近年来，人工智能的发展（Han and Wang, 2021; Rostami et al., 2022; Forouzandeh et al., 2022）吸引了越来越多的兴趣，将其应用于司法领域。机器阅读理解（MRC）是一项自然语言理解技术，能够基于给定文本回答问题。司法任务，例如自动判决预测（Long et al., 2019）和法律要素提取（Wang et al., 2021），都可以转换成MRC问题来解决。能够智能阅读并理解法律文档的机器可以为法官、律师和普通大众获取所需信息提供有效帮助。

然而，司法领域的数据标注相较于开放领域成本更高，在涉及推理判断的情况下（Duan et al., 2019），通常需要专家的参与来保证其质量。司法领域MRC的可解释性需求（Zhang et al., 2022），要求模型不仅要提供准确的答案，还要提供支持性的证据句子，进一步使数据标注过程变得复杂。这也导致了相较于开放域MRC数据集较少的开源司法MRC数据集和较小的样本规模。因此，充分利用有限的标注数据集训练高性能模型是当前面向司法MRC的一个挑战。

目前的大多数MRC研究都关注开放域，例如从维基百科文章中构建的SQuAD（Rajpurkar et al., 2016, 2018）和HotpotQA（Yang et al., 2018）。已经开发出了一些用于解决这些数据集的面向，包括Retro-Reader（Zhang et al., 2021），DFGN（Qiu et al., 2019）和HGN（Fang et al., 2020）。然而，这些面向要么侧重于回答问题，要么忽略了证据和答案之间的关联，将证据预测作为次要任务。因此，这些模型不能充分利用数据中的信息。在有限标记数据领域，例如司法领域，无法有效利用信息将导致需要更多的人力和物力来增加标记数据的数量。

为了最大程度利用有限的标记数据，我们旨在创建答案预测任务和证据预测任务之间的一个关系，这样两个任务的信息就可以共享了。我们观察到司法文本是标准化的格式和简洁的语言，这使得定位证据句子比直接寻找答案更简单。例如，在表1的例子中，问题中的关键字“adopted”和“Zhou Yongsong”可以用来识别相关的证据句子，然后将答案确定为“Zhou Qing”。

因此，一个可能的解决方案就是首先使用过滤方法（Stojanovic et al., 2016; Cheng et al., 2021）搜索证据句子，然后只在那些句子中寻找答案（Min et al., 2018）。然而，这种方法存在局限性。输入中任何导致不正确证据预测的噪声或干扰（Zhuang et al., 2022），都将阻碍答案寻找过程。此外，该方法只是将证据信息整合到了答案预测中，而没有将答案信息整合到证据预测任务中，因此局限了信息的利用。

受到人类阅读理解策略（见图1）的启发，我们提出了司法领域机器阅读理解的反馈增强的两阶段框架（FETSF-MRC）。该框架可以更好地利用答案信息和证据信息。FETSF-MRC由两个模块组成：（1）略读模块，首先浏览法律文本和问题，识别可能与问题相关的证据。（2）精读模块，关注证据以找到候选答案。最后，FETSF-MRC结合精读模块的反馈再次扫描文本，验证证据。与之前的研究不同，FETSF-MRC建立了整两个任务之间的联系，从而更好地利用它们的信息。精读模块接收略读模块的信息，同时也为它提供反馈。

我们的主要贡献是：

（1）一种新颖的注意力计算方法，将证据预测的结果整合到答案预测任务中。

（2）一种基于KL散度的反馈策略，将答案预测的结果整合到证据预测模块。

（3）为答案预测和证据预测任务提供任务间反馈的两阶段框架。

（4）司法领域和开放领域数据集上的对比实验验证了所提面向的有效性。

2 相关工作

2.1 MRC任务和数据集

近年来，MRC逐渐成为自然语言处理领域的一个热点。MRC任务可以表述为一个监督学习问题：给定训练数据，机器要学习一个预测器f。当输入文本段落及相关问题时，预测器可以给出答案作为输出（Chen, 2018）。

大规模数据集的提出使MRC得以迅速发展。根据答案类型，MRC数据集可以分为：填空类、多选、跨度提取和自由生成文本。在这些类别中，跨度提取难度使用，应用广泛，因此成为了一个受欢迎的研究话题。SQuAD1.1（Rajpurkar et al., 2016）是第一个大规模、高质量的跨度提取阅读理解数据集，其中，每个问题的答案都是语境中的一个跨度。SQuAD2.0（Rajpurkar et al., 2018）的提出是为了通过添加不可回答问题解决SQuAD1.1的局限，明显提高了难度。SearchQA（Dunn et al., 2017）和TriviaQA（Joshi et al., 2017）是更具挑战性的数据集，需要在多个句子上推理来得到答案。Yang等人（2018）提出了HotpotQA，一个多文档的多跳问答数据集，要求模型在多个文档中搜索线索，提供证据句子来回答问题，并推导答案。

相较于开放域，特定领域的数据集更有利于人工智能的实现。CJRC（Duan et al., 2019）数据集填补了中文司法阅读理解的空白。具有证据预测任务的CAIL2020（Meng et al., 2022）数据集的提出，满足了司法领域高可解释性的需求。JEC-QA（Zhong et al., 2020）是最大的司法考试问答数据集，包括单选和多选问题。

2.2 早期的神经MRC模型

早期的机器阅读理解（MRC）模型主要关注问题和上下文之间的注意力交互。Hermann等人（2015）提出了几个基于长短期记忆（LSTM）的模型，包括Deep LSTM，Attentive Reader和Impatient Reader。Attentive Reader使用注意力计算每个上下文单词的权重，并加权求和得到上下文向量。Impatient Reader计算每个问题单词和上下文单词之间的注意力，逐渐积累信息。Bi-Directional Attention Flow（BiDAF）（Seo et al., 2016）计算上下文到查询（C2Q）和查询到上下文（Q2C）的注意力信息。Gated Self-Matching Networks（Wang et al., 2017）只考虑上下文中与问题相关的特定单词，并引入基于注意力的门控机制。Yu等人（2018）提出的QANet，将循环神经网络替换成卷积和子注意力，大大提高了训练和推理速度，同时还保持了高性能。

这些早期神经MRC模型的优势是他们训练成本更低，但它们的性能有限。

2.3 预训练语言模型

机器阅读理解（MRC）的发展与预训练语言模型的发展紧密相连。在MRC基准测试SQuAD1.1上，The Bidirectional Encoder Representations from Transformers（BERT）（Devlin et al., 2019）第一次优于人类性能，证明了预训练语言模型的强表示能力。BERT通过两个与训练任务，the Masked Language Model(MLM)和Next Sentence Prediction(NSP)，从大量无标记数据中获得了先进的语言知识，并在下游任务上微调其性能。引入BERT之后，一些工作通过注意力计算（Dai et al., 2019; Khalitov et al., 2023）和预训练任务，例如XLNet（Yang et al., 2019），RoBERTa（Liu et al., 2019），ALBERT（Lan et al., 2019）和ELECTRA（Clark et al., 2020）来改进模型。在这些模型中，RoBERTa在大规模数据集上进行训练，并移除了对下游性能有些许影响的NSP任务，在许多自然语言理解任务上取得了比BERT更好的结果。因此，本文选择RoBERTa作为模型的上下文编码器。

2.4 让人类一样的MRC

Zheng等人（2019）的工作表明，在回答阅读理解问题的过程中，人类注意力分布受到与问题相关的因素（例如答案和证据句子）和与问题不相关的因素（例如单词的位置和词性标注）的影响，当遇到不确定问题时他们将重新阅读全文。Human等人（2019）设计了一个阅读然后验证的系统，首先使用阅读器得到候选答案和无答案可能性，然后使用验证器评估输入片段包含预测答案的可能性。Zhang等人（2020）的研究利用语法约束来限制注意力计算，展示了语法结构信息对文本建模的有效性。Zhang等人（2021）年提出了一个两阶段的回溯阅读器，使用两个平行模块确定问题是否可以被回答。APER（Peng等人，2021）通过证据精炼模块执行多步推理，自适应地提取答案或输出不可回答的预测。

虽然这些工作在问答任务上取得了更好的性能，但它们缺乏对证据的关注，这就导致了模型缺乏可解释性。

2.5 可解释MRC

由于各种应用场景对解释性的需求，许多研究开始开发可解释的MRC模型。Min等人（2018）使用句子选择器选择证据句子，然后仅使用这些句子回答问题。Wu等人（2021）标记出非证据的句子，并计算预测注意力来预测答案。虽然这种直接过滤部分句子的方法缩小了答案搜索的范围，但也带来了传输错误的可能性。DFGN（Qiu等人，2019），SAE（Tu等人，2020）和HGN（Fang等人，2020）都是基于图的模型。这些方法可以解决多跳问题，但它们依赖于额外的命名体识别工具。如果实体识别不准确，尤其是法律文本中实体可能会被匿名化，这可能会导致错误的传播。而且，这些方法主要侧重于改进答案预测准确率，而将证据预测作为次要任务，导致对标注信息缺乏利用。

相反，我们的模型不需要任何额外的工具。它通过基于证据的自注意力层和反馈再训练来增强答案预测和证据预测之间的信息转移，使两个任务都能充分利用注释信息。

3 方法

我们构建模型的目标是增强MRC中两任务之间的联系，充分利用注释信息。根据人类解决MRC问题的策略，我们将MRC任务分成两个步骤：寻找证据句子和寻找答案，分别由模型中的略读模块和精读模块表示。为了建立这两个任务之间的联系，我们整合了基于证据的自注意力层和反馈再训练，作为两个模块之间的桥梁。完整的模块框架如图2所示。

3.1 略读模块

编码问题和上下文。对于输入的问题和上下文，我们首先需要将它们编码成向量，用于后续的任务中。根据Devlin等人（2019），我们以格式“[CLS]question[SEP]context[SEP]”连接问题和上下文作为输入。然后我们将输入文本转换成子单词标签序列。每个标签的输入embedding是对应标签embedding、片段embedding和位置embedding的总和。最后，通过预训练的多层transformer编码器可以学到上下文表示。

我们将最后一层的隐层状态作为编码器输出。这里，d代表编码器输出的维度，L表示序列的长度。

答案类型预测。因为数据集包含基于观点的问题和不可回答的问题，我们需要对答案类型进行分类。因此，我们首先使用最大池化提取文档表示，然后使用一个线性层来确定答案类型。

该任务的训练目标是答案类型预测的交叉熵：

其中，是答案类型的标签。

证据句子预测。为了预测通常具有清晰证据的法律文本中的证据句子，我们使用了一个简单的预测模块。我们通过最大池化得到了每个句子的表示。为了保持序列信息，我们使用两层的transformer进一步编码表示。最后，我们使用一个线性层和sigmoid函数进行预测。

其中，js和je表示第j个句子的开始和结束位置，表示transformer最后一层的隐层状态和注意力权重，osent表示这些句子的重要得分。

证据句子预测的损失函数定义如下：

其中，BCE(·)表示二进制交叉熵损失函数；yevid是真实证据句子。

3.2 精读模块

基于证据的自注意力层。该模块模仿人类发现证据后更多地集中于相关证据的策略。略读模块为每个句子分配重要性得分，反映句子中每个单词与当前问题的相关性。然后，精读模块会计算每个分词的表示，着重强调句子中更重要的分词。传统的子注意力仅考虑单词向量它们自己的注意力。为了将句子的重要性权重整合到当前问题语境中，我们将其与分词权重相乘，以增强传统的自注意力。

为了实现该目标，我们首先基于略读模块得到的逻辑值osent计算每个分词的传统权重矩阵Aevid：

其中，是由等式（8）得到的第j个句子的得分。

然后，将额外的权重Aevid与传统子注意力Aori相乘。这里等式（14）确保softmax每个维度的分量加和等于1。

得到注意力权重矩阵A’后，我们执行与transformer（Vaswani等人，2017）相同的操作，来计算分词Htr的表示，我们使用两个线性层分别预测答案的开始和结束位置。

答案跨度预测的训练目标被定义为开始和结束预测的交叉熵损失：

其中，ystart和yend是开始和结束位置的标签。

3.3 从精读到略读的反馈

通常，句子越重要，答案越有可能从该句子中找到。反之亦然。因此，我们可以使用精读模块中的结果来计算句子重要性。由精读模块，我们得到了答案开始和结束位置的逻辑。然后，我们将每个句子作为一个独立的文档，计算每个句子的逻辑值，表示该剧自是否包含答案。

其中，第a个分词和第b个分词是在第j个句子中的，并且。

我们将逻辑视为第j个句子的重要性，并使用损失函数使略读模块中的transformer层更多地关注精读模块认为重要的句子。然后我们使用平均池化，将略读模块中transformer最后一层的注意力权重池化成。

受到知识蒸馏（Hinton等人，2015）的启发，我们使用温度为T的softmax来计算两者的分布，并用KL分歧计算损失。

通过最优化，略读模块中的transformer可以重点关注可能包含答案的句子。

3.4 两阶段多任务训练

两阶段训练过程的目标是荣国减少错误的传播提高略读模块的性能，同时通过再训练将精读模块得到的信息整合到略读模块。

对于每个batch，我们使用如下更新策略：

首先，一起训练略读模块和精读模块。模型通过一下多任务损失进行优化：

然后，我们增加反馈损失，以再次优化略读模块（这里指的是反馈再训练），这代表人类阅读行为的第二次略读：

两个训练阶段共同包含的任务损失权重保持不变，即在两个训练阶段中均保持不变。训练细节如算法1所示。

4 实验

在本小节，我们首先介绍了用于实验的三个数据集，然后描述类基线模型，评估指标和实现细节。我们的实验主要在两个司法数据集上进行，我们使用案件学习来形象地证明我们模型的有效性。除了这两个司法数据集，我们也在开放域数据集上进行了实验，结果证明了我们模型的可用性。

4.1 数据集

CJRC（Duan等人，2019）：CJRC是第一个中文司法阅读理解（CJRC）数据集。该数据集包含大约10000个文档，这些文档来源于中国裁判文书网（China Judgement Online）。该数据集涉及多种问题类型，包括跨度提取，是/否和不可回答问题。该数据集是单跳问题数据集，不包含证据句子标签。因为这些问题都是单跳问题，所以我们将答案所在句标记为证据句子。

CAIL2020（Meng等人，2022）：CAIL2020是一个多跳问答数据集，包含标记的证据句子。CAIL2020中的问题类型与CJRC中的一样。因为只有CAIL2020的训练集是公开的，所以我们将该数据集以6：2：2的比例分成了训练集、验证集和测试集来进行实验。所有模型在相同的分割数据上运行。

Hotpot（Yang等人，2018）：Hotpot是一个大规模的英文问答数据集，包含多跳问题。在Hotpot中由两种类型的问题，包括跨度提取和是/否类。

我们主要是在CJRC和CAIL2020上进行实验，所有数据集的统计信息如表2所示。

4.2 基线

因为我们无法得到CAIL排行榜的全部数据或方法的源码，所以这里我们与一下基线进行比较，包括HotpotQA基线，DFGN，HGN，CAIL2020基线，以及CAIL2020基线+Transformer。每个极限都是用其对应论文中推荐的参数或源码中默认的参数。

HotpotQA Baseline（Yang等人，2018）：这是数据集HotpotQA的官方基线模型。我们使用“Jieba”分词，使用预训练的中文词向量（Li等人，2018）初始化词嵌入。

DFGN（Qiu等人，2019）：这是一个具有融合块和双向注意力的基于GNN的模型。我们使用spacy提取上下文中的实体，然后使用ToBERTa作为基线编码器。

HGN（Fang等人，2020）：这是多跳QA上的最先进模型，构建了一个层次图图来连接不同来源的线索。

CAIL2020 Baseline：这是CAIL2020的官方基线。它使用RoBERTa学习文本化表示，然后使用三个MLPs分别预测答案、证据句子和答案类型。

CAIL2020 Baseline+Transformer：基于CAIL2020基线，我们增加了一个两层的句子级transformer和一个两层的分词级transformer作为CAIL2020 Baseline+Transformer，所以参数数量与FETSF-MRC一致。

4.3 评估指标

我们沿用之前的工作（Yang等人，2018），使用精确匹配（EM），F1得分和联合指标作为我们的评估指标。

Exact match。该指标是模型性能的严格测量。通过比较预测值和实际值，它提供了模型预测是否正确的一个二分类判决。它是准确率的变体，与准确率的计算方式一样。

F1得分。该指标是模型性能的一个软测量。相较于EM，该指标以不严格的方式评估了预测和实际值之间的平均重合度。真正例（TP），真负例（TN），假正例（FP）和假负例（FN）如表4所定义。

准确率和召回率定义如下：

然后F1得分可以如下计算：

对每个问题，我们计算其F1得分，然后计算所有问题的平均F1得分。

联合指标（Joint metrics）。联合指标衡量了模型在两个任务上的综合性能。对于联合EM（Joint EM），如果两个任务都实现了精确匹配，那么值为1，否则为0.然后在所有问题上求平均。对于联合F1（Joint F1），我们首先计算每个问题的联合F1，然后在所有问题上平均。

4.4 实现细节

实验环境。实验环境和需要的资源如表3所示。

数据处理。我们首先对输入的问题和文本用RoBERTa分词器进行分词。它将文本划分成独立的单词和子词。然后我们以”[CLS] Q [SEP] C [SEP]”的格式连接分词后的问题和上下文，其中”[CLS]”表示输入序列的开始，Q是分词后的问题，”[SEP]”将问题从上下文中分离出来，C是分词后的上下文。为了确保输入序列在模型的最大允许长度范围内，我们将输入序列的最大长度设置为512。如果连接后的问题和上下文超出了该限制，则截断分词后的上下文。

训练。我们使用RoBERTa-base作为编码器，使用预训练权重”Chinese-RobERTa-wwm-ext”（Cui等人，2020）初始化RoBERTa-base模型。对于超参数设置，我们将学习率设置在{2e-5，3e-5}，并以0.1的比例增长。batch size设置为4。为了与这些基线保持一致，我们在研究中使用相同的多任务损失权重。对于我们的传统反馈损失，我们从{1，2，3，4，5}中搜索权重。参考知识蒸馏（Hinton等人，2015）合适的温度T从{1，2，5，10}中选择。我们对CJRC数据集上的2个epochs进行微调，对CAIL2020数据集上的10个epochs进行微调。端到端地训练模型，两个训练阶段的相同任务具有相同的损失权重。训练过程如算法1所示。对于每个batch，我们以一起训练两个模块开始，然后单独训练略读模块。使用验证集评估训练过程中的性能，保存具有最佳结果的模型。

测试。首先，下载训练过程中保存的最佳模型。然后，处理测试数据并喂给略读模块，从而产生证据和答案类型预测结果。最后，将编码器的输出和略读模块的证据预测输入到精读模块，以生成答案跨度预测。

4.5 整体结果

对所有模型，我们首先使用它们的推荐参数和随机种子在CRJC和CAIL2020数据集上进行实验，如表5和表6所示。

实验结果表明，基于预训练的transformers的模型优于基于循环神经网络的HotpotQA基线。CAIL2020基线和CAIL2020基线+Transformer之间性能上的差异很小，表明只增加参数的数量并不能保证性能提高。在CJRC测试集上，我们的方法在大多数评估指标上取得了最先进的结果。与CAIL2020基线+Transformer具有相同的参数，我们的方法在联合EM和联合F１上分别提高了1.34％和5.14％。我们的方法在联合EM和联合F１也分别优于HGN2.55％和1.12％。CAIL2020的结果进一步验证了我们所提方法FETSF－MRC的全局有效性。

因为F１得分可以更准确地评估MRC的预测性能，所以我们进一步计算所有模型F１得分的置信区间。我们采用Colas等人（2018）的方法，使用五个不同的随机种子。对每个模型，我们使用不同给定随机种子进行五次训练，然后在CJRC和CAIL2020测试集上计算F1得分。我们使用t分布估计F1得分的95%置信区间。如表7所示，FETSF-MRC比其它基线模型明显更好。

为了进一步证明FETSF-MRC的有效性，我们在CJRC和CAIL2020上进行了额外的实验。图3和图4表明，FETSF-MRC始终优于HGN和CAIL2020基线，甚至是在变化的随机种子情况下。

增加反馈损失对模型性能的影响如表8所示，说明了重大的改进。

图5和图6表明了当用作多任务损失分配时，FETSF-MRC所取得的最佳性能，这与HGN中的多任务损失权重一致。

温度T对模型性能的影响如图7所示。

结果表明，随着温度的增加，模型在两个数据集上的性能先提高后下降。这是由于精读模块的分布p过度集中于包含答案的句子，而温度的升高会是模型更好地关注遮掩信息。正如图8所示，在较低温度时，分布p中的主要信息都集中在包含答案的句子中。随着温度的升高，其它证据句子中的信息逐渐变得更加突出。

4.6 消融实验

为了检测我们基于证据的自注意力层和反馈再训练对性能的影响，我们进行了实验并分析了结果，如表9所示。

w/o证据权重。表9中的结果表明，整合精读模块中的证据权重可以提高模型的性能。在没有证据权重的情况下，CAIL2020上的联合EM和联合F1分别减少了0.98%和1.90%，说明了关注证据句子的重要性。

w/o反馈损失。反馈损失的缺失会导致FETSR-MRC性能的下降。在CJRC上，联合EM下降了0.98%，联合F1下降了0.8%。在CAIL2020上，联合EM下降了0.79%，联合F1下降了1.07%。这一减少强调了将答案预测结果整合到证据预测模块的反馈损失的重要性，同时也减少了可能是由两阶段训练引起的训练不一致性。

w/o反馈再训练。在没有反馈再训练阶段，性能会减少，因为证据在CJRC的联合F1上下降了0.71%，在CAIL2020的联合F1上下降了1.23%。略读模块的再训练提高了证据预测的性能，减少了错误的传播。此外，整合再训练过程中的答案预测结果可以增强这两个任务之间的关系，充分利用标记信息。

4.7 案件学习

在表10中，我们展示了CAIL2020实验结果的一个例子。这是一个两跳问题。

首先，关键是通过句子7确定“Peng 1的丈夫”是“Xie Zhougao”，然后通过句子10去顶答案“Li x5”。可以看到，HGN和CAIL2020基线都错误预测为“Xie Zhougao”，而我们的模型正确预测出了答案“Li x5”。图9和图10展示了精读模块中的注意力矩阵。

为了确保展示过程的语义完整性，我们将中文字符级的注意力整合到词级，然后翻译成英文。我们可以看到，模型的注意力主要关注答案所在句子，第二层的注意力更多关注于最后的答案“Li x5”。

4.8 在Hotpot上的实验结果

为了进一步验证我们模型的有效性，我们也在大规模的开放域的英文数据集HotpotQA上进行了实验。因为我们的模型是针对单文档问答的，所以我们将相同的段落选择器用作HGN。我们使用RoBERTa-base和RoBERTa-large来编码查询和上下文。我们在训练集的5个epochs上微调模型，batch size是4，学习率是1e-5，是5，是1，是5，T是5。正如表11所示，甚至在没有使用额外知识（例如，命名体识别，文档超链接等）和段落网络时，我们的FETSF-MRC模型仍然可以取得有竞争力的结果。

在HotpotQA上，FETSF-MRC和HGN之间的差距可能是由于数据的大小。在相对较小的数据集CJRC和CAIL2020上，FETSF -MRC通过两个任务的信息交互提高了这两个任务的性能。然而，对于更复杂的大规模HotpotQA数据集，大量数据带来的信息增益掩盖了信息交互带来的增益。在这一点上，HGN的图网络结构和准确的命名体识别过程，更好地处理了HotpotQA中的多跳问题。

为了测试以上假设，我们使用部分HotpotQA进行了实验。正如图11所示，当数据集的数量相对较小时，FETSF-MRC优于HGN。

FETSF-MRC的一个优势是，它不依赖于外部知识（例如命名体识别）。HGN在CJRC和CAIL2020上性能略微较差的另一个原因是，中文文本命名体识别相对较低的准确率，尤其是经过匿名处理的中文法律文本。这就导致错误的累计，进而影响最终的性能。

5 讨论

在本小节中，我们首先解释为什么我们提出的基于证据的自注意力层和反馈再训练是有效的，然后分析模型的一些错误案例，并总结当前工作的一些缺点。

基于证据的自注意力层。提出的基于证据的自注意力层旨在模仿人类解决MRC问题时的思考过程。像人类一样，模型浏览上下文和问题，识别相关的证据句子，更多地关注这些句子从而找到答案。利用之前阶段得到的证据预测结果，模型可以改进其答案预测任务。此外，使用加权策略而不是过滤非证据句子来减少错误的传播。正如表12所示，在数据量较小的数据集，例如CAIL2020，甚至在CJRC上，过滤方法很难有效训练，其性能低于注意力加权法。

造成这种现象的原因是，在训练的早期阶段，模型不可以准确的预测证据句子，因此依赖非证据句子寻找答案，也就导致了较差的训练结果。甚至当使用教师强迫策略（Lamb等人，2016）（即：在训练时答案预测模块直接使用真实的证据句子标签，在测试时使用略读模块得到的结果）时，模型表现仍然没有加权策略好。

反馈再训练。用反馈损失再训练模仿了人类在找到问题的答案后，可能会拿着答案再次验证之前找到的证据句子的准确率。在训练略读模块可以进一步提高证据预测的性能，减少错误传播。引入反馈损失，将精读模块的信息整合到略读模块，同时缓解可能由两阶段训练引起的两模块之间的不一致训练问题。

错误分析。为了更好地分析FETSF-MRC的性能，我们进行了人工错误分析，发现模型执行以下两种类型的问题时性能较差。

（1）时间顺序相关的问题。这类问题要求模型理解事件的顺序。正如表13中的例1，模型发现四个与问题相关的被告，但不能理解“最后被抓的”指的是最后被逮捕的被告。

（2）数字比较问题。这类问题要求模型能够正确理解数字文本表示的大小，而不是仅仅将其视为单纯的文本。例如，在表13的例2中，模型正确找到了证据句子，但是不能理解数字的大小，从而导致了错误的判决。

局限性。尽管FETSF-MRC在司法MRC任务中表现得很好，但它仍然有一些局限性。

（1）由于有限的训练数据，无论是FETSF-MRC还是其他模型都不能正确理解时间顺序和数字大小。

（2）FETSF-MRC强调利用两个任务的信息，允许在每个任务层内不断改进。由于法律文本清晰的结构和简洁的语言，FETSF-MRC模型无需使用更复杂的模块（例如图网络和双向注意力（Seo等人，2016））来得到最先进的结果。然而，当应用于多样且复杂的开放域数据集HotpotQA时，FETSF-MRC的当前任务模块可能不够全面，无法掌握全部知识。

6 结论

在本文中，我们提出了一种用于机器阅读理解（MRC）的新颖的反馈增强的两阶段框架。为了解决司法领域有限标记数据和多任务特征的问题，我们开发了一个基于证据的自注意力层和一个具有反馈损失的再训练过程，从而有效利用可用数据。在两个司法MRC数据集上的实验结果说明了我们方法的优越性和稳定性。然而，我们的模型中仍存在局限性，例如对时间顺序和通用值的弱理解、预测模块的简单设计，这都影响了其在像HotpotQA这样的较大数据集上的性能。未来，我们计划通过整合副主任吴来增强模型对时间顺序和通用值的理解，病逝预测模块更灵活，从而适用于不同的数据集规模。

小白冲鸭

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】A Feedback-Enhanced Two-Stage Framework for judicial machine reading comprehension

机器阅读理解（MRC）是教及其根据给定文本理解并回答问题。在司法领域，MRC通常要求具有可解释性，这意味着模型不仅要正确回答问题，还要提供支持的证据句子。用简单方法独立地处理这两个任务，会忽略它们之间的关系，导致注释信息的丢失。为例更好地利用有限的司法MRC标注数据，我们受到人类解决MRC问题时所使用策略的激励，提出了用于机器阅读理解反馈增强的两阶段框架(FETSF-MRC)。该框架由两个级联模块组成：（1）略读模块，识别证据句子；（2）精读模块，关注证据以识别候选答案，并未略读模块提供反馈。
复制链接

扫一扫