本文是LLM系列文章,针对《INFOBENCH: Evaluating Instruction Following Ability in Large Language Models》的翻译。
摘要
本文介绍了分解需求遵循率(DRFR),这是一种评估大型语言模型(LLM)遵循指令能力的新指标。为了解决当前方法中的差距,DRFR将复杂的指令分解为更简单的标准,有助于对LLM遵守任务各个方面的情况进行详细分析。除了这个指标之外,我们还介绍了INFOBENCH,这是一个基准测试,包括500条不同的指令和2250个跨多个约束类别的分解问题。我们的实验将DRFR与传统的评分方法进行了比较,并探索了注释来源,包括人类专家、众包工作者和GPT-4。研究结果证明了DRFR更高的可靠性和使用GPT-4作为成本效益注释器的有效性。使用该框架对几种高级LLM进行的评估揭示了它们的优势和需要改进的领域,特别是在以下复杂的说明中。这项研究提供了一个新的指标和基准,为未来LLM的开发和评估提供了见解。