发布 BLEURT，用于评估自然语言生成模型

谷歌开发者

于 2020-06-15 18:11:00 发布

阅读量1.5k

点赞数 2

本文链接：https://blog.csdn.net/googledevs/article/details/106773959

版权

Google Research的工程师和研究员推出了BLEURT，一种新的自动化指标，用于更准确地评估自然语言生成系统的质量，其表现接近人工评估。BLEURT基于BERT的预训练和微调，能捕捉语义相似性，解决了现有自动化指标如BLEU侧重表面相似性的局限。研究表明，BLEURT在机器翻译和数据到文本的任务中与人工评分的相关性最高。

摘要由CSDN通过智能技术生成

文 / 软件工程师 Thibault Sellam 和研究员 Ankur P. Parikh

Google Research

近几年来，关于自然语言生成 (Natural Language Generation, NLG) 的研究取得了巨大进展。NLG 模型采用日益成熟的方法，以更高的准确率完成翻译文本、文章总结、进行对话以及图片注释等任务。目前，评估这些 NLG 系统的方法有两种：人工评估和自动化指标评估。人工评估会进行大规模的质量调查，