【AI大模型】kimi o1和deepseek o1对比，非常直观！

最新推荐文章于 2025-03-27 11:35:02 发布

小城哇哇

最新推荐文章于 2025-03-27 11:35:02 发布

阅读量2.6k

点赞数 19

文章标签：人工智能 ai LLM agi 语言模型 Deepseek KiMi

本文链接：https://blog.csdn.net/2401_85325397/article/details/145441366

版权

前言

两家凑巧同一天放出了解题推理模型，简单对比着看了下实现方案，o1 类模型实现并没有和大家早期推测的那样用上 MCTS，PRM 这些方法，个人感觉也是太复杂的方法 scaling 不了。

目前各家用的方案看起来更像是 sft+rl 的加强版，把推理过程内含进生成，而不是用结构去引导生成。两家效果看报告比较接近，个有所长。

code 和 math deepseek 强了一点点，kimi 支持 vision。base 的 rl 基于 token， o1 的 rl 基于思考过程的 node，更符合直觉。

总体上，kimi 的方案是 pretraining，vanilla supervised fine-tuning (SFT)，long-CoT supervised fine-turning，and reinforcement learning (RL)。

kimi 的方案可能更接近 openai o1，先用高质量的 Cot 数据 finetune一个推理模型，然后用一堆 rm 进行大规模的强化学习，路子比较传统一些。讲的比较清楚。

deepseek 的方案是 pretrainning，Cold start SFT，DeepSeek-R1-Zero，Rejection Sampling and SFT，RL2 for all Scenarios。

deepseek 方案最重要的步骤是 DeepSeek-R1-Zero，用了一个 cot 的 prompt 模板，然后一堆基于规则的 reward 模型，强化学习用的 GRPO，方法比较直接。

但是 deepseek 的方案从 base model 直接训练推理能力，实在太强了，有种大力出奇迹的美。

总体来说，deepseek 方案创新度更高，kimi 方案可能更接近 openai 的路子。

1、kimi 方案的一些细节

vanilla SFT

非推理任务，包括问答、写作和文本处理，先人工标注构建一个种子数据集，训练一个种子模型。

随后收集多样化提示，用种子模型为每个提示生成多个回复。标注者对这些回复进行排序，对排名最高的回复进行优化，以生成最终版本。

对于数学和编程问题等推理任务，基于规则和奖励模型的验证比人工判断更准确和高效，利用拒绝采样来扩展 SFT 数据集。

Long-CoT Supervised Fine-Tuning

这一步应该是让模型具有长思维链能力，方便后续 RL 学习。

首先要构建一套 RL Prompt，满足 3 个要求 Diverse Coverage(多样性)、Balanced Difficulty(难度均衡)、Accurate Evaluability(方便评估)，然后构建了一个小而高质量的长链思维（long-CoT）预热数据集，其中包含针对文本和图像输入的经过准确验证的推理路径。

这种方法类似于拒绝采样（RS），但侧重于通过提示工程生成长链思维推理路径。

生成的预热数据集旨在封装对人类推理至关重要的关键认知过程，例如规划，即模型在执行前系统地列出步骤；评估，涉及对中间步骤的批判性评估；反思，使模型能够重新考虑并优化其方法；以及探索，鼓励考虑替代解决方案。

通过对该预热数据集进行轻量级的监督微调（SFT），经过微调后模型生成的回复更详细且逻辑一致更好。

ps：RL Prompt 具体什么样子，怎么指导 Long Cot 不太清楚。

这部分篇幅很多，讲了推理问题的路径搜索和策略优化算法，但是看最后的 gradient 公式，就是正常的 policy gradient，很多东西都内含进生成里面了，比如策略 z。