本文是LLM系列文章,针对《CRITICBENCH: Evaluating Large Language Models as Critic》的翻译。
摘要
批评能力对于大型语言模型(LLM)的可扩展监督和自我完善至关重要。尽管最近的许多研究探索了LLM在生成中判断和完善缺陷的批判能力,但如何全面可靠地衡量LLM的批判能力却没有得到充分的探索。本文介绍了CRITICBENCH,这是一种新的基准,旨在全面可靠地评估LLM的四个关键批评能力维度:反馈、比较、提炼和元反馈。CRITICBENCH包括九个不同的任务,每个任务都评估LLM在不同质量粒度水平上批评响应的能力。我们对开源和闭源LLM的广泛评估揭示了批判能力与任务、反应质量和模型规模之间的有趣关系。CRITICBENCH的数据集、资源和评估工具包将发布在https://github.com/open-compass/CriticBench.