PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models

本文是LLM系列文章,针对《PROMETHEUS 2: An Open Source Language Model Specialized in
Evaluating Other Language Models》的翻译。

PROMETHEUS 2:一个专门用于评估其他语言模型的开源语言模型

摘要

GPT-4等专有LM通常用于评估各种LM的响应质量。然而,包括透明度、可控性和可负担性在内的担忧强烈推动了专门从事评估的开源LM的发展。另一方面,现有的开放式评估器LMs表现出严重的缺点:1)它们发布的分数与人类分配的分数存在显著差异,2)它们缺乏执行直接评估和成对排名的灵活性,这是两种最常见的评估形式。此外,他们不具备根据自定义评估标准进行评估的能力,而是专注于有用性和无害性等一般属性。为了解决这些问题,我们引入了PROMETHEUS 2,这是一个比其前身更强大的评估器LM,它密切地反映了人类和GPT-4的判断。此外,它能够处理与用户定义的评估标准分组的直接评估和成对排名格式。在四个直接评估基准和四个成对排名基准上,PROMETHEUS 2在所有测试的开放评估器LM中与人类和专有LM法官的相关性和一致性得分最高。我们的模型、代码和数据都是公开的。

1 引言

2 相关工作

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值