本文是LLM系列文章,针对《AlignBench: Benchmarking Chinese Alignment of Large Language Models》的翻译。
AlignBench:大型语言模型的中文对齐基准
摘要
对齐已成为调整指令的大型语言模型(LLM)成为有用助手的关键步骤。然而,对中文新兴LLM的一致性的有效评估仍然严重缺乏,需要针对一致性进行基于真实场景的、开放的、具有挑战性的和自动的评估。为了填补这一空白,我们引入了ALIGNBENCH,这是一个全面的多维基准,用于评估LLM在中文中的一致性。我们的基准测试配备了人在环数据管理管道,采用规则校准的多维LLM作为法官和思想链来生成解释和最终评级作为评估,确保了高可靠性和可解释性。此外,我们报告了由CritiqueLLM评估的ALIGNBENCH,这是一个专门的中文评估者LLM,恢复了GPT-4 95%的评估能力。我们将提供公共API来评估ALIGNBENCH与CritiqueLLM,以便于评估LLM的中文对齐。所有评估代码、数据和LLM生成都在https://github.com/THUDM/AlignBench可用。
1 引言
2 数据集
3 方法
4 ALIGNBENCH上的人工评估
5 ALIGNBENCH:基准测试结果
6 相关工作
7 结论
在这项研究中,我们引入了ALIGN