MRC-1-机器阅读理解任务的测评方式

最新推荐文章于 2023-04-07 17:13:39 发布

小鸽的杂货铺

最新推荐文章于 2023-04-07 17:13:39 发布

阅读量940

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42928397/article/details/108845597

版权

本文介绍了机器阅读理解任务的测评方法，包括准确率和召回率的概念，以及自由回答式评测标准ROUGE-N、ROUGE-S、ROUGE-L的详细解释。ROUGE通过计算N元组的召回率、最长公共子序列来评估模型答案的质量。

摘要由CSDN通过智能技术生成

本文是机器阅读理解（Machine Reading Comprehension, MRC）的相关笔记，书目为：朱晨光《机器阅读理解：算法与实践》。推荐看原书！

测评方式

	类型	评测方式
多项选择和完形填空	客观	准确率
区间答案式	半客观	精确匹配和F1(准确率和召回率调和平均)
自由回答式	主观	语义匹配(难)，单词水平的匹配率(易)

准确率与召回率

准确率是指在模型给出的答案中有多大比例的单词在标准答案中出现；召回率是指在标准答案中有多大比例的单词在模型给出的答案中出现。

通俗来讲，准确率相当于模型做对了多少，召回率则是看标准答案中有多少被模型做对了。

自由回答式评测标准ROUGE

自由回答式评测标准有ROUGE、BLEU和METEOR

ROUGE-N用来测评N元组（N-gram）的召回率，其公式如下：

在这里插入图片描述

其中，M为模型答案，counts(A)表示N元组s

最低0.47元/天解锁文章

小鸽的杂货铺

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MRC-1-机器阅读理解任务的测评方式

本文是机器阅读理解（Machine Reading Comprehension, MRC）的相关笔记，书目为：朱晨光《机器阅读理解：算法与实践》。推荐看原书！测评方式类型评测方式多项选择和完形填空客观准确率区间答案式半客观精确匹配和F1(准确率和召回率调和平均)自由回答式主观语义匹配(难)，单词水平的匹配率(易)准确率与召回率准确率是指在模型给出的答案中有多大比例的单词在标准答案中出现；召回率是指在标准答案中有多大比例的单词在模型给出的答案中出现。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。