本文是LLM系列文章,针对《PROMETHEUS 2: An Open Source Language Model Specialized in
Evaluating Other Language Models》的翻译。
摘要
GPT-4等专有LM通常用于评估各种LM的响应质量。然而,包括透明度、可控性和可负担性在内的担忧强烈推动了专门从事评估的开源LM的发展。另一方面,现有的开放式评估器LMs表现出严重的缺点:1)它们发布的分数与人类分配的分数存在显著差异,2)它们缺乏执行直接评估和成对排名的灵活性,这是两种最常见的评估形式。此外,他们不具备根据自定义评估标准进行评估的能力,而是专注于有用性和无害性等一般属性。为了解决这些问题,我们引入了PROMETHEUS 2,这是一个比其前身更强大的评估器LM,它密切地反映了人类和GPT-4的判断。此外,它能够处理与用户定义的评估标准分组的直接评估和成对排名格式。在四个直接评估基准和四个成对排名基准上,PROMETHEUS 2在所有测试的开放评估器LM中与人类和专有LM法官的相关性和一致性得分最高。我们的模型、代码和数据都是公开的。