自然语言处理—阅读理解

最新推荐文章于 2021-11-16 19:50:21 发布

无聊的人生事无聊

最新推荐文章于 2021-11-16 19:50:21 发布

阅读量1.6k

点赞数 1

分类专栏：人工智能任务汇总文章标签：自然语言处理阅读理解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangpeiyi9979/article/details/103489743

版权

人工智能任务汇总专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

一、任务定义
二、数据集
三、评价指标
四、相关文章
五、参考

一、任务定义

阅读理解任务根据答案类型，可以分为如下四种形式：

完形填空：给定上下文 $C$ ,一个词或者实体 $\in C$ 被移除，预测 $a$ , 即最大化条件概率 $P(a | C-\{a\})$ .
多项选择：给定上下文 $C$ ，问题 $Q$ , 候选答案集合 $A$ , 要求模型从 $A$ 中选择正确的答案 $a_i$ ，即最大化条件概率 $P(a_i|C,Q,A)$ .
区间提取：给定上下文 $C$ 和问题 $Q$ , 片段抽取任务要求模型从 $C$ 中抽取连续子序列 $\in C$ 作为正确答案。即最大化条件概率 $P (a ∣ Q, C)$
自由问答: 给定上下文 $C$ 和问题 $Q$ , 需要模型预测出正确答案 $\in C \ or \ a \notin C$ , 且最大化条件概率 $P (a ∣ C, Q)$

二、数据集

完形填空：CNN & Daily Mail 、CBT、LAMBADA、Who-did-What、CLOTH、CliCR
多项选择：MCTest、RACE
区间提取：QuAD、NewsQA、TriviaQA、DuoRC
自由问答：bAbI、MS MARCO 、SearchQA、NarrativeQA、DuReader

三、评价指标

针对完形填空、多项选择、区间提取任务，使用经典的Pre、Rec、F1即可。针对自由问答，有必要详细分类解释。参考[2], 自由问答评价指标可以分为检索类\生成类\基于学习类\人工评测四类。下面一一阐述。

3.1 检索类

检索类方法是信息检索任务中的一大类评估方法，比如最常用的Recall@k, 即给定一个query，选择k个最有可能的response，看正确的是否在这k个里。

3.2 生成类

生成类方法是现在比较常用的评价指标， 其又可以分为以下几类

3.2.1 词重叠评价指标

比如BLEU, ROUGE, METEOR等，其详细解释可以参考[3].

3.2.2 词向量评价指标

比如Embedding avrage score, Greedy matching score, Vector extrema score等，详细解释仍然可以见[3]

3.3 基于学习的评价指标

使用机器学习/深度学习来学习一个好的评价指标，使得模型打分和人工打分更接近。

3.4 人工评测

人工判断结果。

四、相关文章

五、参考

无聊的人生事无聊

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。