本文是LLM系列文章,针对《PROMETHEUS: INDUCING FINE-GRAINED EVALUATION CAPABILITY IN LANGUAGE MODELS》的翻译。
摘要
最近,使用强大的专有大型语言模型(LLM)(例如GPT4)作为长格式响应的评估器已成为事实上的标准。然而,对于具有大规模评估任务和考虑自定义标准(例如,儿童可读性)的从业者来说,使用专有LLM作为评估器是不可靠的,因为它具有封闭的源代码性质、不受控制的版本控制和高昂的成本。在这项工作中,我们提出了PROMETHEUS,这是一种完全开源的LLM,当附带适当的参考材料(参考答案、评分标准)时,它与GPT-4的评估能力不相上下。我们首先构建了FEEDBACK COLLECTION,这是一个新的数据集,由1K个细粒度评分准则、20K条指令以及GPT-4生成的100K个响应和语言反馈组成。使用反馈集合,我们训练PROMETHEUS,一种13B评估器LLM,可以根据用户提供的自定义评分标准评估任何给定的长文本。实验结果表明,PROMETHEUS在使用45个自定义评分标准进行评估时,与人类评估者的Pearson相关性为0.897,与GPT-4(0.882)持平,大大优于ChatGPTÿ