BERTScore评估

BERTscore:使用bert评估文本生成摘要

该博客是对于BERTscore评估做了一个简单的了解,对于论文后续的实验,没有具体深入了解,感兴趣的可以查看论文地址:http://arxiv.org/abs/1904.09675v3
论文标题:BERTSCORE: EVALUATING TEXT GENERATION WITH BERT , ICLR 2020

  • 摘要:BERTScore计算候选句子中每个标记与参考句子中每个标记的相似性分数,使用上下文嵌入计算标识的相似性,而不是精确匹配。
  • 介绍
    ①BERTSCORE,一种基于预训练的BERT上下文嵌入的语言生成评估指标。BERTSCORE将两个句子的相似度计算为其标记嵌入之间的余弦相似度之和
    ②解决了两个弊端:第一个是匹配释义,第二个是无法捕获遥远的依赖关系并惩罚语义上关键的顺序变化。
匹配释义字符串匹配
喜欢外国汽车的人给定一个大小为2的小窗口
BLEU和METEOR错误地给喜欢到国外旅游的人打了一个更高的分数,而消费者更喜欢进口汽车。BLEU只会轻微地惩罚因果子句的交换(例如,a因为B而不是B因为a),特别是当参数a和B是长短语时。

③在机器翻译中,BERTSCORE与人类评判的系统级和语段级的相关性比现有指标在多个常见基准上的相关性更强,并且与BLEU相比显示出强大的模型选择性能。BERTScore代码链接
3.问题陈述和先验指标

  • n-gram匹配
    最常用的生成度量计算参考x和候选x中出现的n-gram。n越高,度量就越能够捕获词序,但它也变得更加严格,并且受限于引用的确切形式。
    精确匹配精度(精确Pn)和召回率(精确Rn)分数为:在这里插入图片描述
BLEUMETEORBERTSCORE
right-aligned 是针对n的多个值(例如n=1,2,3,4)计算的,分数是几何平均值计算精确-p1和精确-r1,同时允许从精确的单字匹配后退到匹配词干、同义词和释义。METEOR需要外部资源,所以完整的功能集只支持五种语言,部分支持十一种语言依赖于能够捕获潜在无限长度依赖关系的上下文化嵌入,允许轻松匹配,但依赖于在大量原始文本上训练的BERT嵌入,目前可用于104种语言。BERTSCORE还支持重要性权重,我们使用简单的语料库统计数据对其进行估计。

①NIST是BLEU的修订版,对每个n-gram的权重不同,并使用另一种简洁的惩罚。
②CHRF比较了参考句和候选句中的字符n-grams。
③CHRF++扩展了CHRF,以包括单词大词匹配。
④ROUGE是一个常用于总结评估的指标。
⑤ROUGE-n计算Exact-Rn(通常n=1,2),而ROUGE-L是Exact-R1的一个变体,分子被最长的公共子序列的长度取代。
⑥CIDER是一个图像字幕指标,计算tf-idf加权n-grams之间的余弦相似度。我们采用了类似的方法,以不同的方式权衡tokens。

  • 编辑距离
    TER通过参考词的数量对编辑距离进行标准化;
    ITER增加了词干匹配和更好的标准化;
    PER计算与位置无关的错误率;
    CDER将块重新排序建模为编辑操作;
    字符和EED在字符级别上运行,并与人类对某些语言的判断实现更高的相关性。
  • 嵌入匹配
    ①单词嵌入是习得的密集标记表示,使用单词嵌入和浅层语义分析来计算词汇和结构相似性。
    ②YSI-1与YSI-2类似。但使语义分析的使用成为可选。这两种方法都使用了相对简单的相似性计算,包括使用贪婪匹配(和使用与Ysi-1相似的重要性权重进行实验。然而,我们使用上下文嵌入,它捕获句子中标记的特定用法,并潜在地捕获序列信息。我们不使用外部工具来生成语言结构,这使得我们的方法相对简单,并且可以移植到新的语言中。
    ③WMDO和SMS建议使用基于地球移动器距离的最佳匹配。
  • 学习函数
    BEER使用基于字符n-grams和单词bigrams的回归模型。BLEND使用回归来结合29个现有的指标。RUSE结合了三个预训练的句子嵌入模型。
  1. BERTScore
    给定一个参考句子在这里插入图片描述
    和一个候选句子在这里插入图片描述
    我们使用上下文嵌入来表示标记,并使用余弦相似性计算匹配,可选地使用逆文档频率分数加权。
    Token Representation
    使用上下文嵌入来表示输入句子x和ˆx中的标记。与之前的单词嵌入不同,上下文嵌入,如BERT和ELMO,可以根据周围的单词在不同的句子中为同一单词生成不同的向量表示,构成目标词的上下文。用于生成这些嵌入的模型通常使用各种语言建模目标进行训练,如蒙蔽词预测。
    Similarity Measure
    向量表示允许软相似性度量,而不是精确的字符串或启发式匹配。参考标记xind

的余弦相似性在这里插入图片描述
是候选标记ˆxjis x>iˆxj kxikkˆxjk我们使用预规范化向量,这将此计算减少到在这里插入图片描述虽然这一度量单独考虑标记,但上下文嵌入包含来自句子其余部分的信息。
BERTSCORE
召回度量RBERT计算的图示。给定参考x和候选ˆx,我们计算BERT嵌入和成对余弦相似性。我们用红色突出显示贪婪匹配,并包括可选的idf重要性权重。该图是召回度量RBERT计算的图示。给定参考x和候选ˆx,我们计算BERT嵌入和成对余弦相似性。我们用红色突出显示贪婪匹配,并包括可选的idf重要性权重。
完整分数将x中的每个标记与ˆx中的一个标记匹配以计算召回率,将ˆx中的每个标记与x中的一个标记匹配以计算精度。我们使用贪婪匹配来最大化匹配相似度得分,2其中每个标记与另一个句子中最相似的标记匹配。我们结合精度和召回率来计算F1度量。对于参考x和候选ˆx,召回率、精确度和F1分数为:
在这里插入图片描述Importance Weighting
BERTSCORE使我们能够轻松地纳入重要性权重。我们使用从测试语料库中计算的反向文档频率(idf)分数进行实验。给定M个参考句{x(i)}M i=1词条标记w的idf分数为在这里插入图片描述其中I[·]是一个指示函数。我们不使用完整的tf idf度量,因为我们处理单个句子,其中术语频率(tf)可能为1。例如,使用idf权重的召回是
在这里插入图片描述因为我们使用参考句来计算idf,所以在特定测试集上评估的所有系统的idf分数保持不变。我们应用加一平滑法来处理未知的词块。
Baseline Rescaling
使用预规范化向量,我们计算的分数具有相同的余弦相似性数值范围(在−1和1)。然而,在实践中,我们观察到的分数范围更为有限,这可能是因为学习了上下文嵌入的几何学。虽然此特性不会影响BERTSCORE对文本生成系统进行排序的能力,但它会降低实际分数的可读性。我们通过重新调整BERTSCORE的经验下限b作为基线来解决这个问题。我们使用公共爬网单语数据集计算b。对于每种语言和上下文嵌入模型,我们通过分组两个随机句子来创建100万个候选引用对。由于随机配对和语料库的多样性,每一对都有很低的词汇和语义重叠。我们通过平均这些句子对的得分来计算b。有了基线b,我们线性地重新调整了分数。
在这里插入图片描述该方法不影响分数的排名能力和人类相关性,仅用于提高分数的可读性。

  • 8
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值