中国大模型DeepSeek-R1性能与OpenAI-o1不相上下-CSDN博客

本文链接：https://blog.csdn.net/2301_76168381/article/details/145276251

DeepSeek-R1来了！性能与OpenAI-o 1相当，便宜30倍，甚至在几乎所有的基准测试中都优于Claude 3.5 Sonnet和o 1-mini！
MIT许可：Distill免费商业化！网站API现已上线！
DeepThink就在今天已经开放：http://chat.deepseek.com

DeepSeek-R1 是一个通过强化学习（RL）训练出来的智能模型，专门用来解决复杂的数学、编程和逻辑问题。它有两个版本：DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是完全通过强化学习训练的，没有任何人工指导数据。它自己学会了很多强大的推理能力，比如自我验证和生成复杂的思考过程。不过，它有时候写的东西不太容易读懂，还会混用不同语言。

为了解决这些问题，DeepSeek-R1 在训练时加入了一些高质量的“冷启动”数据，帮助模型更好地开始学习。它还通过多阶段的训练和拒绝采样来进一步提升推理能力。最终，DeepSeek-R1 在推理任务上的表现和 OpenAI 的 o1-1217 模型差不多。

为了让更多小模型也能拥有强大的推理能力，DeepSeek-R1 还通过“蒸馏”技术，把它的推理能力传授给了一些小模型（老师教学生）。这些小型模型在推理任务上的表现也非常出色，甚至超过了其他一些大模型。

网友1：
这些模型看起来总是很棒，直到你真正将它们用于实际任务。可靠性大大下降，你不能像信任 4o 这样的低端模型那样信任其输出。基准测试并没有捕捉到某种常识性的可用性指标，你可以相信模型能够处理每天现实世界提示中随机出现的少量歧义。

其实，像 OpenAI 这样有钱的最大好处，可能就是能请很多不同的研究团队，去解决各种小问题。就像修路一样，最后一段路往往最难修，但有了足够的钱和人手，就能把这些小问题一个个搞定。

网友2：
Deepseek v3 需要大约 1tb 的 VRAM / RAM，因此需要 10 个 A100。
如果你可以接受更差的延迟和吞吐量，那么有多种方法可以用更低的显存来运行它

DeepSeek-V3 和 DeepSeek-R1 都是非常大的模型，参数规模达到了 7000 亿（700B）。这种规模的模型需要非常多的计算资源，尤其是内存（RAM），才能在本地运行。

现在的问题是，普通人的电脑或服务器根本没有那么多内存来运行这么大的模型。通常，这种规模的模型需要超级计算机或者专门的云计算资源才能运行。

网友3：
DeepSeek R1的训练过程是一个多阶段训练循环非常有效：Base → RL → Finetune → RL → Finetune → RL扩展阶段=更好的性能吗？
分解每个阶段：

R1零→ R1微调冷启动（阶段1/4）：纯粹通过 RL 进行训练，没有在标注数据上进行任何初始微调
R1冷启动→ R1 Reasoner with RL（第2/4阶段）：使用多阶段管道，包括RL和 "冷启动 "数据
R1 Reasoning → R1 Finetuned-Reasoner（Stage 3/4）：使用监督微调来提高 LLM 的推理能力
R1指令-推理器→ R1校准（阶段4/4）：

网友4：
DeepSeek-R1 论文里说的“顿悟时刻”特别重要，意思是：
只用强化学习（RL），就能让大模型（LLM）自己学会思考和反思。
这跟以前的想法不一样。以前大家觉得，要复制 OpenAI 的 o1 推理模型，得用很多“思维链”（CoT）数据。但现在发现，其实只要给模型正确的“奖励”，它就能学会。
这就像当年 AlphaGo 下围棋一样：AlphaGo 通过玩无数盘围棋，用强化学习最大化奖励（赢比赛），最后打败了最厉害的人类棋手。
现在，大模型（LLM）也进入了强化学习时代。2025 年可能会变成“强化学习之年”。

网友5：
以前，大家担心大人工智能模型会“卡住”，因为网上能轻松找到的、带标签的数据快用完了。但现在，这种新方法告诉我们：不用一直给模型喂带标签的例子了！模型可以通过强化学习（RL）自己学会高级推理能力。简单来说，就是模型自己试试看，然后得到一个信号，告诉它做得好不好。
这意味着，我们不用再等新的带标签的数据了。人工智能可以直接从反馈中学习，变得越来越厉害！

网友6：
“蒸馏”=元认知，元认知就是“对自己思考过程的思考”。你可以把它理解为一种“超级高效解决问题”的能力。OpenAI和DeepSeek都意识到了这一点，但有人认为DeepSeek可能是“借鉴”了OpenAI的思路。

这就是大家为什么惊慌失措，可能是因为这种能力太强大了，甚至有点超出预期。它不仅仅是“感知”或“理解”问题，而是能迅速找到解决方案，效率极高。这种能力让人感到惊讶，甚至有点不安。