论文链接:https://arxiv.org/html/2401.02994v3
这篇文章非常有意思,通过简单的模型混合,随机从一组基础聊天模型中选择响应,混合后的组合聊天输出具有很好的性能。简单地混合多个较小的开源系统,而且无需增加任何推理成本,就可以大幅改善用户的对话体验。

摘要(Abstract):
在对话式AI研究中,存在一种明显的趋势,即开发具有越来越多参数的模型,如ChatGPT等。尽管这些庞大的模型倾向于生成越来越好的聊天回复,但它们需要显著的计算资源和内存。本研究探讨了一个相关的问题:多个较小模型是否可以协作实现与单一大型模型相当的或更好的性能?我们引入了一种称为“混合”(Blending)的方法,这是一种简单而有效的集成多个聊天AI的方法。我们的实证证据表明,当特定的较小模型协同混合时,它们有可能超越或匹配比它们大得多的模型的能力。例如,仅集成三个中等规模的模型(6B/13B参数)就可以与像ChatGPT(175B+参数)这样的大型模型相媲美或甚至超越其性能指标。我们使用Chai研究平台上的大量用户进行了为期三十天的A/B测试方法来严格测试这一假设。研究结果强调了混合策略作为提高聊天AI效果的可行方法的潜力,而不需要相应增加计算需求。
解决的主要问题:
当前对话AI的一个主要问题是,为了生成更高质量的聊天回复,模型参数的数量和训练数据的大小需要不断增加,这导致了模型规模的巨大增长,例如当前的最先进系统拥有数千亿参数。虽然这实现了具有非凡新兴能力的高能力聊天AI,但这在实际中带来了巨大的推理开销,需要专门的基础设施,并且通过公共API限制了对这些系统的访问。因此,迫切需要克服这些显著的实践限制,拥有更小、更高效的聊天AI,同时保持用户参与度和当前100B+参数LLMs所达到的对话质量。
主要方法(Blended):
我们提出的方法称为“混合”(Blending),这是一种创新而简单的方法,通过随机从一组基础聊天AI中选择响应,展示了混合后的组合聊天AI具有高度的能力和吸引力,并且可以超越拥有更多参数的系统。有趣的是,我们观察到混合模型似乎具有“所有优点的最佳”特征,并且通过将响应条件化在对话历史上,具有特定属性的单一模型从其他系统中学习了能力。这导致更具吸引力和多样性的响应,以及更具吸引力的用户体验。我们在Chai平台上通过大规模的真实用户A/B测试展示了混合的有效性,结果表明,一个由三个6-13B参数LLMs组成的混合合奏,超过了OpenAI的175B+参数ChatGPT。我们观察到混合合奏的用户保留率显著高于基于ChatGPT的聊天AI,说明用户发现混合聊天AI更具吸引力、娱乐性和实用性,尽管混合仅需要一小部分推理成本和内存开销。
————————————————————————————————
文章的第三节是主要方法,来具体看一下:
3 Blended
3.1 聊天AI
聊天AI的目标是设计一个自动系统,能够产生吸引人和娱乐性的对话,让用户能够互动。假设 u_k表示用户的第 k 轮对话,其中每一轮用户对话是一系列单词u_k 。同样,假设 r_k 表示系统生成的第 k 轮回答,这也是一系列单词 。作为一个隐式语言模型,特定的聊天AI,由 𝜃参数化,模型基于之前对话历史的回答概率:

在训练期间,系统隐式地学习将更高的概率分配给流畅、吸引人且高质量的回答。因此,可以通过随机采样或近似搜索过程(如束搜索)从其分布中简单地采样输出:

受到 InstructGPT 的启发(Ouyang 等人,2022)并在 (Irvine 等人,2023) 中概述,最先进的聊天AI倾向于遵循一个三阶段流程。首先,在相关的文本领域上微调预训练语言模型(PrLM),例如为了设计一个吸引人的聊天机器人而使用娱乐文学。其次,使用明确的人类反馈训练奖励模型,例如通过使用用户参与度作为回答质量的代理 (Irvine 等人,2023)。最后,奖励模型被用来改善原始的 PrLM,无论是通过近端策略优化 (Ouyang 等人,2022) 还是通过一个简单的拒绝采样策略。
在开发特定的聊天AI时,存在许多设计选择,例如基础 PrLM、微调中使用的对话数据以及用于更新系统的人类反馈的性质。人们可能会期望不同的配方和训练种子可能导致高度多样化的系统,每个系统都展示出独特的优势和特征。然后可以考虑如何将一组聊天AI结合起来,形成一个具有更好整体特性的系统。
3.2 集成
根据贝叶斯统计原则,分配给特定回答的概率可以被概念化为在所有合理的聊天AI参数上的概率边际期望:

在实践中,由于我们只能访问有限的聊天AI系统集合,人们可以将连续积分近似为离散求和。此外,可以假设 𝑃Θ(𝜃) 在系统上均匀分布,使得 𝑃Θ(𝜃) =1/𝑁,如果集合由表现相似的模型组成,这可能是一个有效的假设。这产生了近似:

3.3 混合
方法的目标是从真正的集成分布(公式8)中抽取样本。为了实现这个近似,每个回合混合随机(并且均匀地)选择生成当前回答的聊天AI 𝜃 。这个过程在算法1中进行了说明。可以注意到,在对话中,由特定聊天AI生成的特定回答是基于之前选择的聊天AI生成的所有先前回答的条件。这意味着不同的聊天AI能够隐式地影响当前回答的输出。结果,当前回答是各个聊天AI优势的融合,因为它们协作创建一个总体上更具吸引力的对话。
算法1 混合算法

算法1比较容易理解,每次生成新的输出,随机选择新的模型,基于前面的多轮对话生成新的输出。
4 评估聊天AI
评估自然语言生成(NLG)输出的质量是一项出了名的具有挑战性的任务(Fabbri等人,2021年;Liusie等人,2023年),其中传统的黄金标准方法使用人类评估员对生成回答的质量进行打分,这可能成本很高。然而,由于聊天AI顾名思义是与人类一起部署在社交环境中的,人们可以利用用户交互的统计数据作为衡量聊天AI吸引力和质量的有意义且一致的指标。为了评估聊天AI的“质量”,我们考虑了两个主要的代理函数:行业标准用户留存率和主要目标函数,用户参与度。
5 实验
5.1 实验设置
基础聊天AI系统:在我们的实验中,我们考虑了四种不同的基础聊天AI系统。我们首先有3个中等规模的开源大型语言模型(LLMs):Pygmillion 6B[3],Chai Model 6B[4]和Vicuna 13B[5]。每个基础LLM都在对话数据上进行了进一步的微调,并使用训练有素的奖励模型进行拒绝采样(详见Irvine等人,2023年)。我们最后还考虑了最先进的聊天AI,OpenAI的Davinci(GPT3.5),它拥有1750亿参数,并且只能通过封闭的API调用获得。
方法:正如第3.3节所讨论的,每个基础聊天AI系统都在独立的用户组上进行了A/B测试,这些组由真实用户组成,他们与Chai Research Platform互动。我们进行了大规模评估,每个组至少有10000名用户,我们监控了平台上用户在30天内的参与度。此外,我们部署了我们的混合系统(Blended),包括Pygmillion、Chai Model和Vicuna。由于可能存在影响用户留存和参与度的外部因素(例如平台受欢迎程度、假期等),系统仅使用相对于选定基线组的相对参与度和相对留存率进行比较。
5.2 实验结果
对于在Chai Research平台上部署的每个聊天AI,我们根据A/B测试设置中的方程15计算了每天k的用户参与度。通过考虑第20天(k=20),图1显示了Blended、其组成聊天AI和Open AI的GPT-3.5的参与度比率。我们观察到,中等规模的聊天AI(Pygmillion、Vicuna和ChaiLLM)的参与度明显低于GPT3.5,这是意料之中的,因为GPT3.5的参数比它们多了一个数量级以上。然而,通过混合三个基础聊天AI,Blended不仅比每个组成系统的参与度更高,而且性能提升非常显著,以至于Blended可以超越OpenAI的GPT3.5。Blended相对于其他聊天AI的成功也可以在比较k=20的用户留存率时观察到,如图1所示。

我们强调,Blended总共有250亿参数,而OpenAI有1750亿参数,而且,由于Blended的回答每个都是从单一组件聊天AI中采样得到的,推理成本等同于单个6B/13B系统。在图2和图3中分别强调了推理速度的显著差异(以测试时总浮点运算的倒数测量),可以观察到,Blended在参与度和用户留存方面提供了显著的性能提升,速度与小型聊天AI相似。这意味着:与其扩大系统规模以提高质量,人们可以简单地混合多个较小的开源系统,而且无需增加任何推理成本,就可以大幅改善用户的对话体验。这证明了在设计吸引人且成功的聊天AI时,模型协作的重要性超过了简单的模型参数规模。

作为客观比较,表1报告了单一指标摘要(在第3.3节中提出)。以Pygmillion作为控制,我们报告了测试对控制参与度比率指标Δα和Δγ,以及测试对控制留存率指标Δζ和Δβ。Blended具有最高的相对初始参与度Δα和最佳的参与度比率衰减率Δγ。尽管留存率衰减率Δβ对于Vicuna比Blended更好,但Vicuna的初始留存率Δζ显著较低,证明Vicuna需要更长的时间才能达到Blended的留存分数[6],如图3所示。总体而言,显然Blended,使用较小聊天AI的协作,是有效的,在提供比单一、更大的聊天AI(OpenAI的GPT3.5)更高质量的对话方面。

6 未来工作
本研究展示了Blended模型,即多个小型聊天AI的协作,比单一大规模聊天AI(例如OpenAI的Davinci ChatGPT)表现得更好。在本节中,我们提出了一些方法,通过这些方法可以进一步改进Blended模型,以创造更具吸引力的用户对话。
选择集扩展: 本研究中的实验表明,即使是三个组件聊天AI(Chai模型、Vicuna和Pygmillion)的选择集,Blended也能够比更大的Davinci GPT3.5模型表现得更好。这种性能提升归因于每个单独组件模型的个体专长,它们在协作时创造了具有多样化特性的对话。因此,一个简单的方法来进一步增加多样性,从而使对话更加丰富,是扩展到三个以上的组件系统。增加组件系统的数量没有计算成本,因为在Blended的方法中,每个响应总是只通过单个系统运行推理。因此,未来的工作将探索增加组件聊天AI的选择集对整体对话质量的影响。
最优选择分布: 正如第6方程所示,本研究中的Blended采用了一个简单的模型选择近似,P_Θ(θ_n) =1/N。然而,尽管每个组件聊天AI 可能对整体对话都有一定的贡献,每个聊天AI的等同贡献可能并不是最佳设置。因此,为了解决这个问题,可以使用更好的近似方法来确定模型选择分布,如下所示:

其中F 是一个深度学习分类器,被训练用来预测聊天AI选择集上的概率分布,以识别产生下一个最具吸引力回答 r_k的θ_n 。这个分类器可以使用来自人类反馈的标准信号来训练,以识别对话中产生的有效和无效回答,例如,如果用户重新生成了回答,这表明它是一个不受欢迎的回答。未来的工作将探索设计和训练这样一个分类器F的方法,以允许更优的(与用户参与度一致的)分布 P_Θ 来选择每个回答的组件聊天AI 。这种方法的另一个优点是,我们现在可以向选择集中添加新的聊天AI,而不会有损害Blended性能的风险,因为分类器学会降低不良质量聊天AI的贡献。
7 结论
本文介绍了Blended,这是一种通过随机选择不同系统的回答来组合多个聊天AI的简单方法。尽管这种方法简单,但其效果出奇地强大,使得三个参数在6-13B之间的模型组实现的留存率和参与度优于175B参数的ChatGPT。我们在大规模用户A/B测试中展示了发现,这突出表明,混合可能是提高聊天AI质量的一个有前途的解决方案,同时保持较小系统的推理成本。
368

被折叠的 条评论
为什么被折叠?



