DeepSeek-R1拒绝采样的底层逻辑:从数学公式到工程实现的全流程解析-CSDN博客

本文链接：https://blog.csdn.net/m0_59163425/article/details/147595307

拒绝采样的定义

拒绝采样(Rejection Sampling)是一种从复杂概率分布中抽取样本的统计技术，当直接从目标分布 p(x) 中抽取样本不可行或困难时，利用一个易于采样的辅助分布 q(x)，通过一定的接受-拒绝准则来生成符合目标分布 p(x) 的样本。

拒绝采样(Rejection Sampling)是一种从复杂概率分布中生成样本的统计学方法，其核心思想是通过一个容易采样的“提议分布”来近似目标分布，并通过筛选机制接受或拒绝样本。以下是其定义和关键要素：

基本定义

拒绝采样是一种蒙特卡洛方法，用于从难以直接采样的目标分布中生成样本。其步骤可概括为：

选择提议分布 ：需满足：
- 容易采样(如均匀分布、高斯分布)。
- 存在常数，使得对所有成立。
生成候选样本：从中抽取样本。
计算接受概率：以概率接受该样本，否则拒绝。
重复：直到获得足够数量的接受样本。

核心思想

“试错”机制：通过容易采样的生成候选样本，再通过概率判断是否保留。
效率依赖匹配度：若与形状接近(即接近1)，则拒绝率低，采样效率高。

示例说明

假设目标是从复杂分布采样：

选择提议分布 为标准正态分布，并确定使得。
从中抽取样本。
计算接受概率。
生成均匀随机数，若，则接受，否则丢弃。

在机器学习中的应用

在模型训练(如DeepSeek-R1)中，拒绝采样被改进为一种数据筛选策略：

目标分布：高质量答案的隐含分布(如正确且符合格式的响应)。
提议分布：模型生成的原始候选答案。
接受条件：通过规则过滤、奖励模型评分或人工验证(类似的约束)。
结果：仅保留符合标准的样本用于训练，提升数据质量。

优缺点

优点：
- 无需直接计算目标分布的归一化常数(如 )。
- 可处理高维或非标准化分布。
缺点：
- 若与差异大，拒绝率高，计算成本剧增。
- 高维空间中寻找合适的和困难。

与其他采样方法的对比

方法	特点
拒绝采样	依赖提议分布覆盖目标分布，适合低维空间。
重要性采样	不拒绝样本，但通过权重修正，适合计算期望值。
MCMC(马尔可夫链蒙特卡洛)	通过马尔可夫链逼近目标分布，适合高维空间但收敛速度慢。

总结

拒绝采样的本质是通过“试错”逼近目标分布，其效率取决于提议分布与目标分布的匹配程度。在机器学习中，这一思想被扩展为数据筛选工具，帮助模型从海量生成结果中高效选择高质量样本，从而提升训练效果。

LLM训练中的拒绝采样的定义

在LMM训练中，拒绝采样是指让模型针对同一问题生成多个候选答案，通过预设的评估标准(如正确率、逻辑清晰度等)对这些答案进行质量评分，仅保留得分最高的优质答案用于后续训练，而舍弃低质量或错误答案的过程。

目标：从模型生成的多个输出中筛选出符合特定标准的高质量数据，避免使用不良或低质量的样本进行进一步训练。

LLM拒绝采样步骤

生成多个候选输出(推理轨迹+答案)：
- 在某个推理任务中，DeepSeek-R1 会生成多个可能的候选输出，每个候选输出包含推理过程和答案。
- 对于每个问题，模型会输出多个候选答案，通常会生成多个CoT 和答案对(例如,模型会生成2-64个不同输出，形成候选池,这一设计允许后续筛选时有更多选择空间，同时模拟人类解决问题的多路径探索特性。)
评估输出质量
- DeepSeek-R1这一步通过 rule-based rewards 来评估如准确性奖励和格式奖励。
- 计算综合评估质量得分
- 数学验证工具：对数学类问题，使用自动化工具(如改进后的Math-Verify)比对模型输出与标准答案的数学等价性，即使格式不同也能识别
- 神经奖励模型(RM)：例如，使用Qwen/Qwen2.5-Math-RM-72B等模型对候选答案的推理过程和最终结果进行评分，优先选择得分高的样本
- 人工辅助验证：对于复杂或格式不规范的答案，引入大模型(如Llama-3.3-70B-Instruct)作为“判官”进行二次评估，避免误判
- 准确性验证：
- 格式奖励：要求模型将思考过程置于特定标签(如和)内，并将最终答案用``等格式标注，确保输出的结构规范性。
- 语言一致性：过滤掉混合语言(如中英文混杂)或包含冗余代码块的输出，以提升可读性
- 每个候选输出会被评估以判断其是否符合预定的标准(例如正确性、可读性等)。
筛选过程：根据计算出的质量分数，从候选池中只保留那些质量最高的答案用于后续训练，而较低质量的答案则会被丢弃。
- 在数学任务中，若某问题的多个候选答案中有至少一个正确，则优先选择正确且格式合规的样本。
- 在编程任务中，通过编译器运行测试用例验证代码正确性，保留通过测试的输出。
- 最终，DeepSeek团队通过此方法收集了约60万条高质量推理数据，用于后续的监督微调(SFT)和强化学习(RL)训练
- DeepSeek-R1通过使用基于规则的奖励系统(如准确性和格式化奖励)，每个候选输出都会得到一个评分。符合高标准的输出将被接受，低质量的输出将被拒绝。例如，如果某个候选输出包含语言混合或推理过程不完整，则该输出会被丢弃:

补充知识

蒙特卡洛方法(Monte Carlo Method)

蒙特卡洛方法是一类基于随机采样和概率统计的数值计算方法，其核心思想是通过生成大量随机样本，利用统计学规律逼近复杂问题的解。它特别适用于解决高维积分、优化问题、概率分布的采样等难以直接解析求解的场景。

核心特点

随机性：依赖随机数生成器或概率过程。
统计近似：通过样本的统计特性(如均值、方差)逼近真实结果。
重复实验：通过大量重复实验减少误差。
适用性广：尤其擅长处理高维、非线性和复杂分布问题。

为什么拒绝采样是蒙特卡洛方法？

拒绝采样完全符合蒙特卡洛方法的定义和特点，具体体现在以下方面：

1. 基于随机采样

蒙特卡洛的核心：通过随机生成候选样本来探索目标分布。
拒绝采样的实现：从提议分布中随机抽取候选样本，这一过程本质是随机采样。

2. 概率接受机制

蒙特卡洛的核心：通过概率规则筛选样本(如接受/拒绝)。
拒绝采样的实现：对每个候选样本，以概率决定是否接受，最终保留的样本服从目标分布。

3. 统计逼近目标分布

蒙特卡洛的核心：通过样本的统计特性逼近真实分布。
拒绝采样的实现：即使无法直接采样，也能通过接受/拒绝的统计结果间接生成服从的样本。

4. 无需解析计算

蒙特卡洛的核心：避免直接求解复杂积分或归一化常数。
拒绝采样的实现：只需知道和的未归一化形式，无需计算归一化因子(如 )。

示例对比：蒙特卡洛积分 vs. 拒绝采样

蒙特卡洛积分

目标：计算积分。
方法：
1. 在区间内均匀采样。
2. 计算均值，逼近真实积分值。

拒绝采样

目标：从分布生成样本。
方法：
1. 从提议分布采样。
2. 以概率接受，否则拒绝。
3. 最终接受的样本近似服从。

共同点：均通过随机采样和统计规律逼近目标。

为什么说拒绝采样是蒙特卡洛方法的子集？

蒙特卡洛方法特征	拒绝采样的对应实现
依赖随机数生成	从提议分布随机采样候选样本
通过统计结果逼近目标	接受的样本统计上服从目标分布
避免直接解析计算复杂问题	无需计算的归一化常数
适用于高维空间	可扩展到多维分布(但效率可能下降)

与其他蒙特卡洛方法的对比

方法	核心思想	与拒绝采样的关系
重要性采样	对样本加权而非拒绝，直接修正统计量	均用提议分布逼近目标，但拒绝采样直接丢弃样本
MCMC	通过马尔可夫链的转移概率逼近目标分布	拒绝采样是单步独立采样，MCMC依赖序列相关性
直接采样	已知逆累积分布函数时直接生成样本	拒绝采样在无法直接采样时作为替代方案

总结

蒙特卡洛方法是一类通过随机性解决确定性问题的技术，而拒绝采样是其典型代表：

方法论一致性：均通过随机采样和概率规则逼近目标。
应用场景重叠：处理复杂分布、高维积分等问题。
核心优势相同：避免解析计算，依赖统计规律。

因此，拒绝采样是蒙特卡洛方法在概率分布采样问题中的一种具体实现形式。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述