ShareGPT平替!利用苏格拉底提问模拟器更好地蒸馏ChatGPT对话能力

研究团队通过反转学习目标,训练用户模拟器Socratic,模仿苏格拉底式提问来激发ChatGPT的潜力。这种方法在Alpaca Eval和MT-bench基准上超越了GPT 3.5,且通过SocraticChat数据集训练出的助手模型PlatoLM表现出色。Socratic模拟器能够灵活切换提问方式,增强对话的多样性和领域适应性。
摘要由CSDN通过智能技术生成

5fb9ff07908b4df0ba7cdc42831d5c2c.gif

©PaperWeekly 原创 · 作者 | 孔楚伊

单位 | 深圳市大数据研究院

研究方向 | 自然语言处理

b9f3ef1bd40ee84576c251f10753d78c.png

引言

基于真实用户与 ChatGPT 的互动,通过反转学习目标(从学习回复到学习提问),训练更贴近真实用户的模拟器,更好的提问质量可以激发 ChatGPT 的更大潜力。在流行的 Alpaca Eval benchmark 超过 GPT 3.5,在 MT-bench 上得分 6.33,强于 Vicuna 新版。在这两个 benchmark 都是是基于 LLaMA 2 7B 底座的 SOTA。

ChatGPT 的多轮对话能力和指令理解能力让公众更广泛地接受来这一产品,但是因其闭源,社区在努力做民主化 ChatGPT 的尝试。例如,Vicuna 通过利用真实用户和 ChatGPT 对话的 ShareGPT 数据集来快速开源大模型的对话能力,效果显著。然而,由于近期 ShareGPT 官方不再允许用户从其上爬取数据,最近的工作则(如 Baize 和 UltraLM 等)通过提示的方式让 ChatGPT 进行角色扮演,以模拟用户和助手模型,自动生成对话数据。

粗略地讲,影响训练助手模型性能的因素有两方面。一方面,用户问题的质量是可以影响模型的效果,例如 Wizard 中用户的复杂指令可以比 Alpace 指令可以更好地训练助手模型。ChatGPT 用户模拟器并不能保证可以足够激发 ChatGPT 助手模型的足够的潜力。

即使可以设计一些精细的 prompt 来让 ChatGPT 所扮演的用户模拟器提供某种类型的问题,其在提问过程中也是即兴的,难以保证 ChatGPT 所扮演的用户模拟器的提问能够达到满意的程度。并且,用户模拟器用来激发大模型能力的提问方式一定程度上是抽象,难以通过文本 prompt 来具象化。

另一方面,用于训练数据的分布是否贴近真实的使用场景同样影响训练后的助手模型能性。通过角色扮演,ChatGPT 作为用户模拟器可能不能贴切地模拟真实用户的信息需求,特别是在和 ChatGPT 这种助手模型提问时的思路。

这使得训练出的助手模型并不能和与真实用户交互时 ChatGPT 的表现一致。因此,需要构建一个用户模拟器通过建模用户的真实意图和提问思路,以此充分激发助手模型的回复能力。

777e61a52425bdfdcdda1412288bc820.png

考虑到以上两个方面,我们联想到利用苏格拉底式提问来命名我们的方法,苏格拉底式提问是老师教学生的一个经典方法,通过连续提问来充分激发学生的能力,促进学生的思考。在大模型训练的场景是,学习一个用户模拟器专门去给 ChatGPT/GPT4 助手模型连续提问,通过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值