©PaperWeekly 原创 · 作者 | 孔楚伊
单位 | 深圳市大数据研究院
研究方向 | 自然语言处理
引言
基于真实用户与 ChatGPT 的互动,通过反转学习目标(从学习回复到学习提问),训练更贴近真实用户的模拟器,更好的提问质量可以激发 ChatGPT 的更大潜力。在流行的 Alpaca Eval benchmark 超过 GPT 3.5,在 MT-bench 上得分 6.33,强于 Vicuna 新版。在这两个 benchmark 都是是基于 LLaMA 2 7B 底座的 SOTA。
ChatGPT 的多轮对话能力和指令理解能力让公众更广泛地接受来这一产品,但是因其闭源,社区在努力做民主化 ChatGPT 的尝试。例如,Vicuna 通过利用真实用户和 ChatGPT 对话的 ShareGPT 数据集来快速开源大模型的对话能力,效果显著。然而,由于近期 ShareGPT 官方不再允许用户从其上爬取数据,最近的工作则(如 Baize 和 UltraLM 等)通过提示的方式让 ChatGPT 进行角色扮演,以模拟用户和助手模型,自动生成对话数据。
粗略地讲,影响训练助手模型性能的因素有两方面。一方面,用户问题的质量是可以影响模型的效果,例如 Wizard 中用户的复杂指令可以比 Alpace 指令可以更好地训练助手模型。ChatGPT 用户模拟器并不能保证可以足够激发 ChatGPT 助手模型的足够的潜力。
即使可以设计一些精细的 prompt 来让 ChatGPT 所扮演的用户模拟器提供某种类型的问题,其在提问过程中也是即兴的,难以保证 ChatGPT 所扮演的用户模拟器的提问能够达到满意的程度。并且,用户模拟器用来激发大模型能力的提问方式一定程度上是抽象,难以通过文本 prompt 来具象化。
另一方面,用于训练数据的分布是否贴近真实的使用场景同样影响训练后的助手模型能性。通过角色扮演,ChatGPT 作为用户模拟器可能不能贴切地模拟真实用户的信息需求,特别是在和 ChatGPT 这种助手模型提问时的思路。
这使得训练出的助手模型并不能和与真实用户交互时 ChatGPT 的表现一致。因此,需要构建一个用户模拟器通过建模用户的真实意图和提问思路,以此充分激发助手模型的回复能力。
考虑到以上两个方面,我们联想到利用苏格拉底式提问来命名我们的方法,苏格拉底式提问是老师教学生的一个经典方法,通过连续提问来充分激发学生的能力,促进学生的思考。在大模型训练的场景是,学习一个用户模拟器专门去给 ChatGPT/GPT4 助手模型连续提问,通过