ACL 2024 | Parrot(鹦鹉):增强大语言模型在多轮对话中的指令跟随能力

487c883d5f5153b79bd41d9fd9f2a18c.gif

多轮对话是大语言模型与人类互动的主要方式,广泛应用于消费娱乐、生产力工具和创意生成等场景。然而,构建多轮对话能力所需的训练数据人工标注成本高,且难以控制质量和多样性。因此,如何增强大模型的多轮交互能力,一直是业界一项重大技术挑战,其对于大模型研发和落地应用的重要价值不言而喻。

本文介绍了快手「快意」大模型团队和中国人民大学合作,在多轮指令跟随模型训练、数据合成以及评测上所做的系统工作 Parrot(鹦鹉)。Parrot 提出上下文感知的偏好优化策略,引入提问模型构建高质量的多轮指令跟随数据,从而提升大模型多轮指令跟随能力。

在相同配置下,Parrot 使用了约 40k 的训练数据(约为基线模型 Vicuna v1.5 的 32%),但相较于基线模型实现了约 7% 的绝对性能提升。该工作于近期被自然语言处理顶级会议 ACL 2024 录用为主会论文。

5422714ee40bc605ea0bd3376a77e750.png

论文题目:

Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models

论文作者:

Yuchong Sun, Che Liu, Kun Zhou, Jinwen Huang, Ruihua Song, Wayne Xin Zhao, Fuzheng Zhang, Di Zhang, Kun Gai

论文链接

https://arxiv.org/pdf/2310.07301

多轮对话是人们与大语言模型(LLM)进行互动的主要方式,LLM 的多轮指令跟随能力是衡量其效果的关键指标。然而,目前业界大部分现有研究对于 LLM 在遵循多轮指令方面的能力——包括训练方法、训练数据集和评估基准都未给予足够的关注,这导致模型在单轮评测上表现良好,但在实际应用中效果不够理想。

这篇论文提出了 Parrot(鹦鹉)模型,一种旨在增强 LLM 在多轮交互中遵循指令能力的系统性方案。Parrot 创新的提出了上下文感知的偏好优化策(CaPO)、并基于训练提问模型来收集多轮指令微调数据,提升了 LLM 处理复杂多轮交互的能力。作者还建立了一个新的多轮基准测试 MT-Bench++,为量化评估 LLM 的多轮指令遵循能力提供了基准。

113135a07a40dd5e382c458065b1fbfe.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值