机器阅读理解Machine Reading Comprehension（MRC）基本介绍

最新推荐文章于 2025-03-19 14:07:34 发布

smallBrilliant

最新推荐文章于 2025-03-19 14:07:34 发布

阅读量1.4k

点赞数 3

分类专栏： NLP 文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43149766/article/details/120870209

版权

本文介绍了机器阅读理解的基本流程，包括文本预处理、四大任务（完形填空、多项选择、答案抽取、自由回答）、常用数据集、典型架构及方法，以及评测指标。重点探讨了Context-Query Interaction模块和BERT在MRC中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

NLP相关任务的基本流程
MRC四大任务
各任务相关数据集
机器阅读理解架构及方法
总体架构
评测指标

NLP相关任务的基本流程

文本预处理：

去除冗余字符标记（正则表达式）
分词（jieba）
单词处理（英文：大写->小写，单词还原，同义词扩展）
去除停用词
保护词应用于分词模块：开课吧，后厂理工学院
同义词用于分词后的语料扩展：扩展->扩充
停止词用于去除干扰信息，提取主要信息：的，么，了……

MRC四大任务

完形填空：原文中除去若干关键词，需要模型填入正确的单词或短语。

多项选择：模型需要从给定的若干选项中选出正确答案

答案抽取：回答限定是文章的一个子句，需要模型在文章中标注正确答案的起始和终止位置。

自由回答：不限定模型生成答案的形式，允许模型自由生产数据

各任务相关数据集

完形填空：
- CNN&Daily Mail
- CBT
单项选择
- MC Test
- RACE
答案抽取：
- SQuAD
- NewsQA
自由回答：
- MS MARCO
- DuReader2.0（10w可回答问题 +5w无答案问题）数据集在设计无答案的问题，就是看模型是否真的理解了问题，而不是单纯的匹配。
  - http://ai.baidu.com/broad/download?dataset=dureader
  - https://aistudio.baidu.com/aistudio/competition/detail/28

机器阅读理解架构及方法

特征+传统机器学习
BERT以前：各种神奇的QA架构
BERT以后：预训练+微调+trick

总体架构

最重要的模块是：Context-Query Interaction

评测指标

Accuracy：一共m个问题答对了n个

F1

Rouge-L：

最长公共子序列LCS，X为目标，Y为模型，m为标准答案的单词个数，n为模型答案的单词个数。 $\beta$ 一般取无穷大。所以F=R。

BLEU

示例：

candidate: the cat sat on the mat

reference: the cat is on the mat

就

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。