MRC-1-机器阅读理解任务的测评方式

本文介绍了机器阅读理解任务的测评方法,包括准确率和召回率的概念,以及自由回答式评测标准ROUGE-N、ROUGE-S、ROUGE-L的详细解释。ROUGE通过计算N元组的召回率、最长公共子序列来评估模型答案的质量。
摘要由CSDN通过智能技术生成

本文是机器阅读理解(Machine Reading Comprehension, MRC)的相关笔记,书目为:朱晨光《机器阅读理解:算法与实践》。推荐看原书!

测评方式

类型 评测方式
多项选择和完形填空 客观 准确率
区间答案式 半客观 精确匹配和F1(准确率和召回率调和平均)
自由回答式 主观 语义匹配(难),单词水平的匹配率(易)

准确率与召回率

准确率是指在模型给出的答案中有多大比例的单词在标准答案中出现;召回率是指在标准答案中有多大比例的单词在模型给出的答案中出现。

通俗来讲,准确率相当于模型做对了多少,召回率则是看标准答案中有多少被模型做对了。

自由回答式评测标准ROUGE

自由回答式评测标准有ROUGE、BLEU和METEOR

ROUGE-N用来测评N元组(N-gram)的召回率,其公式如下:

在这里插入图片描述

其中,M为模型答案,counts(A)表示N元组s

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值