【论文阅读笔记2】：Cooperative Self-training of Machine Reading Comprehension

Magichz86

已于 2022-07-23 16:37:31 修改

阅读量469

点赞数 1

分类专栏：论文阅读笔记文章标签：自然语言处理语言模型人工智能

于 2022-07-15 17:22:54 首次发布

本文链接：https://blog.csdn.net/weixin_42953627/article/details/125805318

版权

论文阅读笔记专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章链接：Cooperative Self-training of Machine Reading Comprehension - ACL Anthology

一、摘要

预训练语言模型通过提供高质量、上下文相关的词向量提高了抽取式问答等下游任务的效果。然而，训练特定领域的问答模型依然缺乏大量的标注数据。在本文中，我们提出了一个互助式自训练框架——RGX，通过自回归的生成问题-答案对提高模型效果。RGX通过一个答案实体识别模块（Recognizer），一个问题生成模块（Generator）和一个答案抽取模块（eXtractor）实现。给定文本段和一个被遮挡的实体，问题生成模块围绕实体生成问题。答案抽取模块在通过问题在文本段中抽取相应的答案。之后，文章利用一个自训练的方法同时提高问题生成和答案抽取的效果。在实验中，文章证明了RGX的表现优于SOTA。

二、概述

本文做的任务是抽取式问答，即机器阅读理解。现有的工作通过大型的预训练模型提高了阅读理解的表现，然而这种方法需要大量的标注数据。先前的工作证明了自训练方法可以有效地提高阅读理解模型的表现，然而在自训练过程中，存在预训练数据集——目标数据之间的偏差。因此，本文提出一个互助式自训练框架，通过共同训练QA对和问答数据提高模型的学习能力。通过文章提出的模型，我们可以在提高预训练QA模型在无标注数据集上的效果。实验表明文章的模型的表现优于SOTA方法。