本文是LLM系列文章,针对《Benchmarking Large Language Models on Controllable Generation
under Diversified Instructions》的翻译。
摘要
尽管大型语言模型(LLM)表现出了令人印象深刻的指令跟随能力,但尚不清楚它们是否以及在多大程度上能够对各种指令中可能包含的明确约束做出反应。因此,作为LLM对齐的一个重要方面,制定这样一套专门的指令以及研究LLM的最终行为是很重要的。为了解决这一空缺,我们提出了一个新的基准CoDI Eval,以系统、全面地评估LLM对具有各种约束的指令的响应。我们构建了一个约束属性指令的大型集合,作为一个专注于泛化和覆盖的测试套件。具体来说,我们提倡指令多样化过程来综合各种形式的约束表达式,并考虑具有更细粒度子类别的候选任务分类法。最后,我们将整个评估过程自动化,以促进进一步的发展。与现有的可控文本生成研究不同,CoDI-Eval首次将研究范围扩展到流行的指令跟随范式。我们在CoDI Eval上对具有代表性的LLM(例如,ChatGPT、Vicuna)进行了广泛的评估,揭示了它们在遵循特定限制的说明方面的局限性,并且开源和商业闭源LLM之间仍然存在显著差距。我们相信,这一基准将有助于研究提高LLM对指令响应的可控性。我们的数据和代码在