机器阅读理解（MRC）和问答（QA）在信息抽取中的应用

最新推荐文章于 2024-04-15 08:17:34 发布

iceburg-blogs

最新推荐文章于 2024-04-15 08:17:34 发布

阅读量6.4k

点赞数 10

分类专栏：自然语言处理文章标签：自然语言处理算法 python

本文链接：https://blog.csdn.net/eagleuniversityeye/article/details/106965145

版权

本文介绍了机器阅读理解（MRC）和问答系统（QA）在信息抽取中的应用，如HBT、ETL-span、Multi-turn QA和BERT_MRC模型。这些模型利用MRC中的指针网络解决实体重叠问题，通过问答形式逐步抽取主体、客体和关系，提高实体关系抽取和命名实体识别的准确性与召回率。MRC的发展历程、任务类型和评测标准也在文中进行了概述，其中片段抽取任务与信息抽取任务关系最为紧密。最后，讨论了MRC和QA方法相比传统序列标注方法的优势，尤其是在处理重叠实体和长距离依赖问题时的表现。

摘要由CSDN通过智能技术生成

一机器阅读理解（MRC）、问答系统（QA）与信息抽取

最近实体关系抽取任务和命名实体识别任务的SOTA模型排行榜中，有很多模型使用到了机器阅读理解（MRC）和问答系统（QA）中思想和方法，如HBT、ETL-span、Multi-turn QA和BERT_MRC等，MRC和QA中的思想和方法的使用，让这些模型相比于传统方法有很大提升。

在实体关系抽取任务中，最新的一些模型，如HBT和ETL-span，用到了MRC中经常使用的指针网络方法，通过多层标注序列解决实体重叠问题；Multi-turn QA则使用了问答系统的思想，通过问答的形式一步一步抽取出主体、客体和关系，这些模型在多个数据集上都达到了SOTA效果。相比于传统的使用LSTM+CRF抽取特征做序列标注，这些借鉴了MRC和QA技术的模型，无论是在抽取结果的准确性还是对重叠实体关系的召回率方面，都有大幅度的提升。

而在命名实体识别任务中，也有像BERT_MRC这样的模型，同时融合了MRC和QA领域的诸多思想方法，在多个数据集上达到了SOTA效果。

本文以信息抽取为核心，主要探讨一下MRC和QA中经常使用到的思想方法在信息抽取任务（包括实体关系抽取和命名实体识别）中的应用。

二 MRC概述

在分析MRC和QA在IE中的应用之前，先对MRC做一个简单的概述，由于我对QA了解的不多，就不详细介绍QA了，只分析一下QA中的一些方法是怎么应用到信息抽取中的。

MRC概述

Neural Machine Reading Comprehension: Methods and Trends是一篇MRC领域的综述论文，这篇论文对MRC领域的任务目标，使用到的各种方法和思想和发展前景做了非常详细的描述。这里摘取其中一部分对MRC做一个简要的介绍，如果想对MRC有更深入的了解，推荐先去认真阅读一下这篇论文。

1 MRC的发展历程

MRC的任务是让机器根据给定的内容回答问题。在1970年代MRC就已经被提出，但是，由于那时的数据集规模都比较小，而且主要使用基于规则的方法，所以性能很差，难以投入实用。这一情况在深度学习方法投入使用之后有了改观。基于深度学习方法的机器阅读理解，称为神经机器阅读理解，目前正在迅速发展。

在这里插入图片描述

上图是2015年-2018年期间，和MRC领域的各个细分任务相关的论文数量，可以看出，最近几年MRC领域的论文数呈几何级数式增长，这一领域正在迅速发展。

2 任务&评测标准

MRC的任务根据答案形式可以分为四类：完形填空、多项选择、片段抽取、自由作答

2.1 完形填空

给定上下文 $C$ ，一个词或实体 $a (a \in C)$ 被移除，完形填空任务要求模型使用正确的词或实体进行填空，最大化条件概率 $P(a|C-\{a\})$ 。

在这里插入图片描述

2.2 多项选择

给定上下文 $C$ ，问题 $Q$ ，候选答案列表 $A=\{a_1,a_2...,a_n\}$ ，多项选择任务要求模型从A中选择正确的答案 $a_i$ ，最大化条件概率 $P(a_i|C,Q,A)$

最低0.47元/天解锁文章

iceburg-blogs

关注

10
点赞
踩
27

收藏

觉得还不错? 一键收藏
4
评论
机器阅读理解（MRC）和问答（QA）在信息抽取中的应用

一机器阅读理解（MRC）、问答系统（QA）与信息抽取最近实体关系抽取任务和命名实体识别任务的SOTA模型排行榜中，有很多模型使用到了机器阅读理解（MRC）和问答系统（QA）中思想和方法，如HBT、ETL-span、Multi-turn QA和BERT_MRC等，MRC和QA中的思想和方法的使用，让这些模型相比于传统方法有很大提升。在实体关系抽取任务中，最新的一些模型，如HBT和ETL-span，用到了MRC中经常使用的指针网络方法，通过多层标注序列解决实体重叠问题；Multi-turn QA则使用了问
复制链接

扫一扫