机器阅读理解Machine Reading Comprehension(MRC)基本介绍

NLP相关任务的基本流程

image-20211020162958394

文本预处理:

  • 去除冗余字符标记(正则表达式)
  • 分词(jieba)
  • 单词处理(英文:大写->小写,单词还原,同义词扩展)
  • 去除停用词
  • 保护词应用于分词模块:开课吧,后厂理工学院
  • 同义词用于分词后的语料扩展:扩展->扩充
  • 停止词用于去除干扰信息,提取主要信息:的, 么, 了……

MRC四大任务

完形填空:原文中除去若干关键词,需要模型填入正确的单词或短语。

多项选择:模型需要从给定的若干选项中选出正确答案

答案抽取:回答限定是文章的一个子句,需要模型在文章中标注正确答案的起始和终止位置。

自由回答:不限定模型生成答案的形式,允许模型自由生产数据

各任务相关数据集

机器阅读理解架构及方法

  • 特征+传统机器学习

  • BERT以前:各种神奇的QA架构

  • BERT以后:预训练+微调+trick

总体架构

image-20211020162429333

最重要的模块是:Context-Query Interaction

评测指标

Accuracy:一共m个问题答对了n个

image-20211020162721424

F1

image-20211020162801790

image-20211020162742357image-20211020162752832

Rouge-L

最长公共子序列LCS,X为目标,Y为模型,m为标准答案的单词个数,n为模型答案的单词个数。 β \beta β一般取无穷大。所以F=R。

image-20211020163209663

BLEU

示例:

candidate: the cat sat on the mat

reference: the cat is on the mat

b

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值