ACL 2024 | Parrot（鹦鹉）：增强大语言模型在多轮对话中的指令跟随能力-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/140580525

多轮对话是大语言模型与人类互动的主要方式，广泛应用于消费娱乐、生产力工具和创意生成等场景。然而，构建多轮对话能力所需的训练数据人工标注成本高，且难以控制质量和多样性。因此，如何增强大模型的多轮交互能力，一直是业界一项重大技术挑战，其对于大模型研发和落地应用的重要价值不言而喻。

本文介绍了快手「快意」大模型团队和中国人民大学合作，在多轮指令跟随模型训练、数据合成以及评测上所做的系统工作 Parrot（鹦鹉）。Parrot 提出上下文感知的偏好优化策略，引入提问模型构建高质量的多轮指令跟随数据，从而提升大模型多轮指令跟随能力。

在相同配置下，Parrot 使用了约 40k 的训练数据（约为基线模型 Vicuna v1.5 的 32%），但相较于基线模型实现了约 7% 的绝对性能提升。该工作于近期被自然语言处理顶级会议 ACL 2024 录用为主会论文。

论文题目：

Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models

论文作者：

Yuchong Sun, Che Liu, Kun Zhou, Jinwen Huang, Ruihua Song, Wayne Xin Zhao, Fuzheng Zhang, Di Zhang, Kun Gai

论文链接：

https://arxiv.org/pdf/2310.07301

多轮对话是人们与大语言模型（LLM）进行互动的主要方式，LLM 的多轮指令跟随能力是衡量其效果的关键指标。然而，目前业界大部分现有研究对于 LLM 在遵循多轮指令方面的能力——包括训练方法、训练数据集和评估基准都未给予足够的关注，这导致模型在单轮评测上表现良好，但在实际应用中效果不够理想。

这篇论文提出了 Parrot（鹦鹉）模型，一种旨在增强 LLM 在多轮交互中遵循指令能力的系统性方案。Parrot 创新的提出了上下文感知的偏好优化策（CaPO）、并基于训练提问模型来收集多轮指令微调数据，提升了 LLM 处理复杂多轮交互的能力。作者还建立了一个新的多轮基准测试 MT-Bench++，为量化评估 LLM 的多轮指令遵循能力提供了基准。