本文是LLM系列文章,针对《FollowEval: A Multi-Dimensional Benchmark for Assessing the Instruction-Following Capability of Large Language Models》的翻译。
摘要
有效评估大型语言模型(LLM)的指令跟随能力至关重要。一个不能遵循人类指令的模型可能无法提供可靠和有用的响应。为了实现这一目标,已经构建了各种基准来评估这些模型的指令跟随能力。然而,这些基准测试仅限于一种语言,并且是使用自动化方法构建的,这限制了它们的适用性及其包含的测试示例的质量。为了弥补这一差距,我们在本文中引入了FollowEval基准。这个基准测试由中英文实例组成,所有测试实例都是由人类专家精心制作的。此外,FollowEval基准测试旨在评估以下五个关键指令维度的LLM:字符串操作、常识推理、逻辑推理、空间推理和响应约束。为了提高复杂性并提出足够的挑战,每个测试示例都被设计为评估多个维度。我们使用FollowEval基准评估了各种LLM,发现它们的性能明显落后于人类。这突出了这些模型在遵循指令的能力方面有相当大的改进空间。