臭皮匠与诸葛亮2:1B参数的语言模型能超越405B模型吗?

--->更多内容,请移步“鲁班秘笈”!!<---

Test-Time Scaling,TTS是一种在推理过程中利用额外计算资源来提升大语言模型(LLMs)性能重要方法。TTS在模型测试/推理阶段,采用灵活的策略来优化模型的推理效果或效率的方法。也就是说,当模型训练好之后,在不改模型参数的前提下,通过设计一些推理阶段的策略,来提升模型的表现、控制计算开销,或者兼顾二者。

小编考虑再三,还是将TTS翻译为推理阶段扩展(毕竟测试阶段也是在推理阶段范畴)

其主要核心是将推理扩展策略(Test-Time Strategy,TTS)与过程奖励机制(Process Reward Model, PRM)相结合。

大白话的解释就是将一个数学问题输入大型语言模型(LLM),由模型生成 N 个中间解,即推导过程中的若干步骤或候选解法。这些中间解代表了模型在问题求解过程中可能采取的不同路径。

随后,利用过程奖励模型(Process Reward Model, PRM)对每个中间步骤进行打分,预测该步骤在未来推导中成功到达正确答案的可能性。根据这些得分结果,结合预设的搜索策略,筛选出值得进一步探索的部分解,并基于这些部分解生成下一轮中间步骤。

通过这种方式,逐步扩展解空间,同时在每个阶段利用PRM评估当前步骤的潜力,动态调整搜索方向。

当搜索过程达到终止条件(如达到计算预算或找到足够候选解)后,汇总所有最终候选答案,再次通过PRM对它们进行排序,最终选取得分最高的解作为模型的输出答案。

上图展示了几种外挂的TTS模式,

Best-of-N:

对每个问题生成 N 个候选答案,利用奖励模型(Reward Model)对每个答案打分,选取得分最高的作为最终输出。重点在于答案质量,而非生成概率。

Beam Search:

一种系统化的解空间搜索方法,结合过程奖励模型(PRM),在推理过程中为每个中间步骤打分,逐步筛选得分最高候选路径,提升整体推理质量。

Diverse verifier tree search (DVTS):

Beam Search 的改进版,将初始候选拆分为多个子树,分别在 PRM 指导下独立扩展,提升解的多样性和在高计算预算下的性能表现。

新的问题

最近有研究人员针对两个核心的问题进行深入分析:

(1) 在不同的策略模型、PRMs 和问题难度下,扩展推理计算的最优方式是什么?

(2) 延长推理计算时间能在多大程度上提升LLM在复杂任务上的表现?小模型是否可以通过这种方式超越大模型?

研究的结论表明在MATH-500和具有挑战性的AIME24数据集上

(1) 计算最优的TTS策略高度依赖于策略模型、PRM以及问题的难度;

(2) 利用合理的最优TTS策略,极小的策略模型可以超越大模型。

同时得到:

  • 一个拥有1B参数的LLM在MATH-500任务上超越了405B参数的LLM

  • 一个0.5B参数的模型超过了GPT-4o

  • 一个3B参数的模型超过了405B参数的模型

  • 一个7B参数的模型击败了o1和DeepSeek-R1,同时具有更高的推理效率

这些发现表明,针对具体任务和模型特征调整TTS策略至关重要,TTS方法在提升LLM推理能力方面具有广阔前景。

实验过程

数据集:

研究人员在竞赛级别的数学数据集上进行实验,包括MATH-500和AIME24。MATH-500和AIME24MATH-500包含来自MATH测试集的500个代表性问题,由于最近的大型语言模型在数学推理方面取得了显著进展还包括了更具挑战性AIME24进行实验。

策略模型:

对于TTS,使用来自Llama 3和Qwen2.5系列的不同大小的策略模型。我们为所有策略模型使用Instruct版本。

过程奖励模型:

基本上采用开源PRM进行评估:

• Math-Shepherd:Math-Shepherd-PRM-7B在Mistral-7B上进行训练,使用的是从Mistral-7B在MetaMath上微调生成的PRM数据。

• RLHFlow系列:RLHFlow包括RLHFlow-PRM-Mistral-8B和RLHFlow-PRM-Deepseek-8B,分别在Mistral-7B在MetaMath上微调的数据和deepseek-math-7b-instruct上进行训练。这两个PRM的基础模型都是Llama-3.1-8B-Instruct。

• Skywork系列:Skywork系列包括Skywork-PRM-1.5B和Skywork-PRM-7B,分别在Qwen2.5-Math-1.5B-Instruct和Qwen2.5-Math-7B-Instruct上进行训练。训练数据是从Llama-2在数学数据集上微调和Qwen2-Math系列模型生成的。

• Qwen2.5-Math系列:我们评估Qwen2.5-Math-PRM-7B和Qwen2.5-Math-PRM-72B,分别在Qwen2.5-Math-7B-Instruct和Qwen2.5-Math-72B-Instruct上进行训练。训练数据是使用Qwen2-Math和Qwen2.5-Math系列模型生成的。

在所有列出的PRM中,Qwen2.5-Math-PRM-72B是最强的开源数学任务PRM,而Qwen2.5-Math-PRM-7B是7B/8B参数中最有能力的PRM

评分和投票方法

三种评分方法:PRM-Min、PRM-Last和PRM-Avg,以及三种投票方法:Majority Vote、PRM-Max和PRM-Vote。、

下图为不同TTS和PRM组合在MATH-500和AIME24两个任务上的多次实验结果:

注意x轴代表实验次数,2的几次方!看来还是pass@k最高效,但是开销也是巨大的。

如上图所示,对于Llama-3.1-8B-Instruct,使用Skywork和Qwen2.5-Math PRMs的搜索方法在更大的计算预算下性能显著提升,而使用Math-Shepherd和RLHFlow PRMs的搜索结果相对较差,甚至比多数投票还差。

对于Qwen2.5-7B-Instruct,使用Skywork-PRM-7B和Qwen2.5-Math PRMs的搜索性能随着预算的增加而提升,而其他PRMs的性能仍然较差。

最佳的TTS方法取决于所使用的PRM。当使用Math-Shepherd和RLHFlow PRMs时,BoN大多数时候优于其他策略,而搜索方法在使用Skywork和Qwen2.5-Math PRMs时表现更好。这种差异是因为使用PRM处理OOD策略响应会导致次优答案,因为PRMs在策略模型之间的泛化能力有限。此外,如果我们使用OOD PRMs选择每一步,可能会陷入局部最优解并降低性能。

“Pass@k” 是一个常用于评估代码生成模型性能的指标,尤其是在自动编程代码生成竞赛题解生成的任务中。


它的意思是:

在每道题生成 k 个候选答案时,至少有一个答案是正确的概率。


更简单的解释:

假设让一个 AI 模型来写程序解题(比如 LeetCode 题),我们允许它对每道题尝试 k 次不同的解法,然后我们看它能不能在这 k 个答案中 至少写出一个正确的程序


举个例子:

  • 对某道题目:

    • 如果这样的成功率是 60%,那就是 Pass@5 = 0.60

    • 如果生成 1 个答案,模型能通过测试的概率是 30%,那就是 Pass@1 = 0.30

<think>好的,我现在需要回答用户关于集成学习的问题。首先,用户希望了解集成学习的概念、方法和应用。根据提供的引用内容,我需要整合这些信息,确保回答结构清晰,符合用户的要求。 首先,集成学习的定义是什么?引用[1]提到,集成学习是结合多个基模型以提高整体预测性能的技术。而引用[3]提到的强可学习和弱可学习的等价性,说明通过组合弱学习器可以形成强学习器,这也是集成学习的基础理论之一。 接下来,集成学习的方法有哪些?引用[2]指出主要有bagging、boosting和stacking三种方法。bagging如随机森林,通过并行训练并聚合结果;boosting如AdaBoost和梯度提升,通过顺序调整样本权重;stacking则是将不同模型的预测结果作为新特征输入到次级模型。此外,引用[5]还提到了blending,它和stacking类似,但训练集划分方式不同。 关于应用场景,引用[1]和[4]提到分类、回归、异常检测等领域,比如金融风控和医疗诊断。需要具体说明这些应用,并引用相关例子。 需要确保回答符合系统指令:使用正确的LaTeX格式,生成相关问题,引用标识自然添加。例如,在提到强可学习时引用[^3],方法部分引用[^2][^5]。 现在组织内容的结构:概念、方法(分点详细说明)、应用场景,最后生成相关问题。检查是否有遗漏的信息,比如集成学习的优缺点,引用[1]提到了优缺点,但用户主要问的是概念、方法和应用,所以可以简要提及优缺点,但可能不需要深入展开。 最后,生成的相关问题要围绕集成学习的核心,如方法对比、应用实例、性能优化等,参考用户提供的示例问题形式。</think>### 集成学习介绍 #### 概念 集成学习(Ensemble Learning)是一种通过结合多个基模型(弱学习器)的预测结果,以提高整体模型泛化能力和稳定性的机器学习方法[^1]。其核心思想基于“三个臭皮匠顶个诸葛亮”,即多个弱模型的集体决策可以超越单个强模型的表现。根据**强可学习弱可学习的等价性定理**,通过合理组合弱学习器,可以得到强学习器。 #### 主要方法 1. **Bagging(自助聚集法)** - **原理**:通过有放回抽样生成多个子训练集,并行训练基模型,最终通过投票(分类)或平均(回归)聚合结果。 - **典型算法**:随机森林(Random Forest),通过引入特征随机性进一步降低方差[^2][^4]。 - **数学表示**:若基模型为$h_i(x)$,则Bagging的预测结果为: $$H(x) = \frac{1}{N}\sum_{i=1}^{N} h_i(x)$$ 2. **Boosting(提升法)** - **原理**:顺序训练基模型,每次调整样本权重或损失函数,专注于修正前序模型的错误。 - **典型算法**: - **AdaBoost**:通过加权误差调整样本权重。 - **梯度提升(Gradient Boosting)**:利用梯度下降优化损失函数,如XGBoost、LightGBM。 3. **Stacking(堆叠法)** - **原理**:将多个基模型的预测结果作为新特征输入次级模型(如逻辑回归)进行最终预测[^5]。 - **Blending的区别**:Blending将训练集划分为两部分,一部分用于基模型训练,另一部分生成预测结果作为次级模型的输入。 #### 应用场景 1. **分类回归任务**:如金融风控中的信用评分、医疗诊断中的疾病预测[^1][^4]。 2. **异常检测**:通过集成模型识别数据中的离群点。 3. **竞赛优化**:在Kaggle等数据竞赛中,集成方法常作为夺冠方案的核心技术。 #### 优缺点 - **优点**:降低过拟合风险、提升模型稳定性、适应复杂任务。 - **缺点**:计算成本高、模型解释性较差[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值