NLP任务中常用的指标
文章平均质量分 91
本专栏用于记录NLP的常用评价指标的学习,以指标提出论文的解读为主。
梆子井欢喜坨
这个作者很懒,什么都没留下…
展开
-
NLP基础知识点:METEOR
提出论文:[1] An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments 改进论文:[2] Meteor: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments本文以论文2中公式为主The “exact” module maps two words if they原创 2021-05-21 16:01:31 · 3052 阅读 · 0 评论 -
NLP基础知识点:ROUGE
ROUGE: A Package for Automatic Evaluation of Summaries1. 简介ROUGE 指标由 Chin-Yew Lin 提出, 主要用于评估机器翻译和文章生成摘要的质量,其全称是 (Recall-Oriented Understudy for Gisting Evaluation)它主要基于召回率和n-gram2. 预备知识:召回率(Recall)与F1值先复习一下召回率(Recall)的概念召回率即查全率,是所有正例被正确预测的比例。这里放上西瓜书原创 2021-05-20 19:28:24 · 3566 阅读 · 0 评论 -
NLP基础知识点:CIDEr算法
CIDEr的主要应用场景为Image Caption参考论文:[1] Vedantam R , Zitnick C L , Parikh D . CIDEr: Consensus-based Image Description Evaluation[J]. IEEE, 2015.目的是评估对图像IiI_iIi,一个候选句(candidate sentence)cic_ici和一组和一组图像描述Si={si1,...,sim}S_i = \{s_{i1},...,s_{im}\}Si={si1原创 2021-05-06 17:09:13 · 1757 阅读 · 0 评论 -
NLP基础知识点:困惑度(Perplexity)
词序列的条件概率越高,困惑度越低。因此,根据语言模型,最小化困惑相当于最大化测试集概率。公式如下:困惑度可以理解为,如果每个时间步都根据语言模型计算的概率分布随机挑词,(假设所有的词出现的概率相同)那么平均情况下,挑多少个词才能挑到正确的那个。...原创 2021-04-30 09:30:33 · 19666 阅读 · 0 评论 -
NLP基础知识点:BLEU(及Python代码实现)
Bleu[1]是IBM在2002提出的,用于机器翻译任务的评价BLEU还有许多变种。根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n。BLEU-1衡量的是单词级别的准确性,更高阶的bleu可以衡量句子的流畅性。它的总体思想就是准确率假如给定标准译文reference,神经网络生成的句子是candidate,句子长度为n,candidate中有m个单词出现在reference,bleu的1-gram的原创 2021-04-27 20:54:56 · 10107 阅读 · 1 评论