本文是LLM系列文章,针对《LongAlign: A Recipe for Long Context Alignment of Large Language Models》的翻译。
摘要
扩展大型语言模型以有效处理长上下文需要对类似长度的输入序列进行指令微调。为了解决这个问题,我们提出了LongAlign——一个用于长上下文对齐的指令数据、训练和评估的配方。首先,我们使用Self instruction构建了一个长指令跟随数据集。为了确保数据的多样性,它涵盖了来自各种长上下文来源的广泛任务。其次,我们采用打包和排序分批策略来加快对具有不同长度分布的数据的监督微调。此外,我们开发了一种损失加权方法,以平衡打包训练过程中不同序列的损失。第三,我们介绍了LongBench聊天基准,用于评估长度为10k-100k的查询的指令跟随能力。实验表明,LongAlign在长上下文任务中比现有的LLM配方高出30%,同时也保持了它们处理短通用任务的熟练度。代码、数据和长期模型都是开源的,位于https://github.com/THUDM/LongAlign.