发布 BLEURT,用于评估自然语言生成模型
Google Research的工程师和研究员推出了BLEURT,一种新的自动化指标,用于更准确地评估自然语言生成系统的质量,其表现接近人工评估。BLEURT基于BERT的预训练和微调,能捕捉语义相似性,解决了现有自动化指标如BLEU侧重表面相似性的局限。研究表明,BLEURT在机器翻译和数据到文本的任务中与人工评分的相关性最高。
摘要由CSDN通过智能技术生成