小红书搜索团队提出新解码策略,降低大模型推理成本

文章探讨了如何通过早停自洽性方法(ESC)优化大语言模型的逻辑推理,尤其是通过减少采样次数来降低计算成本。ESC在多步推理任务中表现出色,尤其在数学、常识和符号推理任务中显著减少了平均采样次数,同时保持了性能。这种方法有望在大规模语言模型中实现更高效的推理和更低的计算代价。
摘要由CSDN通过智能技术生成

如何让大语言模型(LLMs)“智能涌现”?关键技术之一是思维链(Chain of Thought,CoT),它通过引导大模型,一步一步模拟人类思考过程,可有效增强大模型的逻辑推理能力。

而自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略。SC 通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。尽管在各种多步推理任务中带来了显著的性能提升,但它是一种高成本的方法,需要进行预设大小的多次采样。

在 ICLR 2024 上,小红书搜索算法团队提出一种简单且可扩展的采样过程 —— 即早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低 SC 的成本。在此基础上,团队进一步推导出一种 ESC 控制方案,以动态选择不同任务和模型的性能-成本平衡。

随后,小红书和北理工的研究者们选择了三种主流推理任务(数学,常识和符号推理),并利用不同规模的语言模型进行实验。实验结果显示,ESC 在六个基准测试中显著降低了平均采样次数,包括 MATH(-33.8%),GSM8K(-80.1%),StrategyQA(-76.8%),CommonsenseQA(-78.5%),Coin Flip(-84.2%)和 Last Letters(-67.4%),同时几乎保持原有性能。

这说明了 ESC 的有效性和创新性,它能够在保证推理性能的同时显著减少采样次数,从而降低计算成本。这一点对于大语言模型非常重要,因为这些模型的推理过程通常需要大量的计算资源。

在这里插入图片描述

在思维链(CoT)提示的帮助下,大语言模型(LLMs)展现出强大的推理能力。基于此,由于复杂推理任务通常允许有多条推理路径指向正确答案,先前的研究者引入了一种称为自洽性(Self-Consistency,SC)的解码策略,以进一步提高推理性能。

与传统只生成单一路径(greedy search)的标准思维链提示相比,SC 方法会根据预设的样本规模采样多条推理路径,并通过投票机制确定最终答案。尽管这种方法有效,但它会产生与采样数量成正比的显著开销。以 GPT-4 为例,若采样量为 40,在 MATH 数据集测试一次,成本需要高达 2000 美元,这迫切需要一种降低 SC 成本的改进方法。

在 SC 中,生成多个样本的过程可以被视为近似 LLM 预测的真实答案分布。通过选择出现频率最高的结果作为最终答案,可以减少单一采样策略带来的随机性。然而,考虑到 SC 只需要最置信的答案,并不要求整个答案分布完美匹配。因此,我们认为没有必要直接为每个输入生成与预设采样大小对齐的所有推理路径。相反,生成过程可以被序列化为较小的部分,每个部分被命名为一个采样窗口。考虑到小窗口和大量的采样输出都源自同一预测答案分布,采样窗口可以被视为一个探针,仅通过少量的采样数就可以揭示真实分布的一些信息。

图 1 : GPT-4 在 MATH 数据集采样窗口内的平均熵得分

对于答案分布,一个猜想是正确答案的候选分布通常较为集中,而错误答案则相对分散。我们使用熵作为答案分布形状的表示。上图分别展示了窗口内正确和错误投票答案分布的平均熵值,结果表明,具有较高概率的正确答案通常伴随着较低的熵值,因此熵值可以作为一个指标来确定是否继续采样。

基于此,我们提出了早停自洽性方法(Early-Stopping Self-Consistency,ESC) ,即在低熵窗口截断采样过程。为了尽可能地保持性能,我们设置最严格的阈值:熵等于零,即窗口内生成的所有样本都有相同的答案。发生这种情况时停止采样,既能减少采样消耗,同时将性能影响降至最低。

早停止(Early-Stopping)是一种被广泛用于训练模型时的技术,以防止过拟合现象发生。在本文中,我们引入早停止策略,应用于减少多次采样过程的成本。与原始的 SC 相同,ESC 是完全无监督且与模型无关,无需任何人工注释或额外训练。我们推导出了在 SC 中有或无早停止方法的结果不一致概率的理论上限,结果表明 ESC 有极大的概率保持性能。此外,我们还提出一个 ESC 动态控制方案:通过选择窗口大小和最大采样次数,动态地为不同任务和模型找到最佳的性能-成本平衡点,以满足实际需求。

在这里插入图片描述在这里插入图片描述

如图展示 ESC 与原始 SC 的完整过程对比。我们将大采样量(在本例中等于 20)分成几个连续的小窗口(在本例中为 5),当一个窗口内的答案都相同时停止采样,即预测答案分布的熵值为零。

2.1 自洽性方法分析

自洽性方法的核心思想在于,对于一个复杂问题,通常允许有多种推理思路,这些思路最终都能导向相同的正确答案。基于此,在采样量为 L L L 下的投票过程可以表述为:

在这里插入图片描述
其中 f L ( i ) f^L(i) f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小红书技术REDtech

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值