多轮对话是大语言模型与人类互动的主要方式,广泛应用于消费娱乐、生产力工具和创意生成等场景。然而,构建多轮对话能力所需的训练数据人工标注成本高,且难以控制质量和多样性。因此,如何增强大模型的多轮交互能力,一直是业界一项重大技术挑战,其对于大模型研发和落地应用的重要价值不言而喻。
本文介绍了快手「快意」大模型团队和中国人民大学合作,在多轮指令跟随模型训练、数据合成以及评测上所做的系统工作 Parrot(鹦鹉)。Parrot 提出上下文感知的偏好优化策略,引入提问模型构建高质量的多轮指令跟随数据,从而提升大模型多轮指令跟随能力。
在相同配置下,Parrot 使用了约 40k 的训练数据(约为基线模型 Vicuna v1.5 的 32%),但相较于基线模型实现了约 7% 的绝对性能提升。该工作于近期被自然语言处理顶级会议 ACL 2024 录用为主会论文。
论文题目:
Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models
论文作者:
Yuchong Sun, Che Liu, Kun Zhou, Jinwen Huang, Ruihua Song, Wayne Xin Zhao, Fuzheng Zhang, Di Zhang, Kun Gai
论文链接:
https://arxiv.org/pdf/2310.07301
多轮对话是人们与大语言模型(LLM)进行互动的主要方式,LLM 的多轮指令跟随能力是衡量其效果的关键指标。然而,目前业界大部分现有研究对于 LLM 在遵循多轮指令方面的能力——包括训练方法、训练数据集和评估基准都未给予足够的关注,这导致模型在单轮评测上表现良好,但在实际应用中效果不够理想。
这篇论文提出了 Parrot(鹦鹉)模型,一种旨在增强 LLM 在多轮交互中遵循指令能力的系统性方案。Parrot 创新的提出了上下文感知的偏好优化策(CaPO)、并基于训练提问模型来收集多轮指令微调数据,提升了 LLM 处理复杂多轮交互的能力。作者还建立了一个新的多轮基准测试 MT-Bench++,为量化评估 LLM 的多轮指令遵循能力提供了基准。