本文是机器阅读理解(Machine Reading Comprehension, MRC)的相关笔记,书目为:朱晨光《机器阅读理解:算法与实践》。推荐看原书!
测评方式
类型 | 评测方式 | |
---|---|---|
多项选择和完形填空 | 客观 | 准确率 |
区间答案式 | 半客观 | 精确匹配和F1(准确率和召回率调和平均) |
自由回答式 | 主观 | 语义匹配(难),单词水平的匹配率(易) |
准确率与召回率
准确率是指在模型给出的答案中有多大比例的单词在标准答案中出现;召回率是指在标准答案中有多大比例的单词在模型给出的答案中出现。
通俗来讲,准确率相当于模型做对了多少,召回率则是看标准答案中有多少被模型做对了。
自由回答式评测标准ROUGE
自由回答式评测标准有ROUGE、BLEU和METEOR
ROUGE-N用来测评N元组(N-gram)的召回率,其公式如下:
其中,M为模型答案,counts(A)表示N元组s在标准答案A中出现的次