PROMETHEUS: INDUCING FINE-GRAINED EVALUATION CAPABILITY IN LANGUAGE MODELS

828 篇文章

已下架不支持订阅

本文介绍了PROMETHEUS,一个开源的大型语言模型,能根据用户自定义评分标准对长文本进行评估。通过FEEDBACK COLLECTION数据集训练,PROMETHEUS在多项评估中与GPT-4表现相当,且在人类偏好基准上表现出高准确性,有望成为通用奖励模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《PROMETHEUS: INDUCING FINE-GRAINED EVALUATION CAPABILITY IN LANGUAGE MODELS》的翻译。

摘要

最近,使用强大的专有大型语言模型(LLM)(例如GPT4)作为长格式响应的评估器已成为事实上的标准。然而,对于具有大规模评估任务和考虑自定义标准(例如,儿童可读性)的从业者来说,使用专有LLM作为评估器是不可靠的,因为它具有封闭的源代码性质、不受控制的版本控制和高昂的成本。在这项工作中,我们提出了PROMETHEUS,这是一种完全开源的LLM,当附带适当的参考材料(参考答案、评分标准)时,它与GPT-4的评估能力不相上下。我们首先构建了FEEDBACK COLLECTION,这是一个新的数据集,由1K个细粒度评分准则、20K条指令以及GPT-4生成的100K个响应和语言反馈组成。使用反馈集合,我们训练PROMETHEUS,一种13B评估器LLM,可以根据用户提供的自定义评分标准评估任何给定的长文本。实验结果表明,PROMETHEUS在使用45个自定义评分标准进行评估时,与人类评估者的Pearson相关性为0.897,与GPT-4(0.882)持平,大大优于ChatGPTÿ

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值