本文是LLM系列文章,针对《Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models》的翻译。
摘要
大型语言模型(LLM)遵循指令的能力对于现实世界的应用程序至关重要。尽管最近取得了进展,但几项研究强调,LLM在面对具有挑战性的指令时会遇到困难,尤其是那些包含复杂约束的指令,这阻碍了他们在各种任务中的有效性。为了应对这一挑战,我们引入了Conifer,这是一种新颖的指令调优数据集,旨在增强LLM,使其能够遵循具有复杂约束的多级指令。利用GPT-4,我们通过一系列LLM驱动的细化过程来管理数据集,以确保高质量。我们还提出了一种渐进式学习方案,强调从易到难的渐进式学习,并从过程反馈中学习。使用Conifer训练的模型在指令遵循能力方面表现出显著的提高,特别是对于具有复杂约束的指令。在几个遵循指令的基准测试中,我们的7B模型优于最先进的开源7B模型,甚至在某些指标上超过了10倍大的模型的性能。所有代码和Conifer数据集均在https://www.github.com/ConiferLM/Conifer可用。