DeepSeek-R1来了!性能与OpenAI-o 1相当,便宜30倍,甚至在几乎所有的基准测试中都优于Claude 3.5 Sonnet和o 1-mini!
MIT许可:Distill免费商业化!网站API现已上线!
DeepThink就在今天已经开放:http://chat.deepseek.com
DeepSeek-R1 是一个通过强化学习(RL)训练出来的智能模型,专门用来解决复杂的数学、编程和逻辑问题。它有两个版本:DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是完全通过强化学习训练的,没有任何人工指导数据。它自己学会了很多强大的推理能力,比如自我验证和生成复杂的思考过程。不过,它有时候写的东西不太容易读懂,还会混用不同语言。
为了解决这些问题,DeepSeek-R1 在训练时加入了一些高质量的“冷启动”数据,帮助模型更好地开始学习。它还通过多阶段的训练和拒绝采样来进一步提升推理能力。最终,DeepSeek-R1 在推理任务上的表现和 OpenAI 的 o1-1217 模型差不多。
为了让更多小模型也能拥有强大的推理能力,DeepSeek-R1 还通过“蒸馏”技术,把它的推理能力传授给了一些小模型(老师教学生)。这些小型模型在推理任务上的表现也非常出色,甚至超过了其他一些大模型。
网友1:
这些模型看起来总是很棒,直到你真正将它们用于实际任务。可靠性大大下降,你不能像信任 4o 这样的低端模型那样信任其输出。基准测试并没有捕捉到某种常识性的可用性指标,你可以相信模型能够处理每天现实世界提示中随机出现的少量歧义。
其实,像 OpenAI 这样有钱的最大好处,可能就是能请很多不同的研究团队,去解决各种小问题。就像修路一样,最后一段路往往最难修,但有了足够的钱和人手,就能把这些小问题一个个搞定。
网友2:
Deepseek v3 需要大约 1tb 的 VRAM / RAM,因此需要 10 个 A100。
如果你可以接受更差的延迟和吞吐量,那么有多种方法可以用更低的显存来运行它
DeepSeek-V3 和 DeepSeek-R1 都是非常大的模型,参数规模达到了 7000 亿(700B)。这种规模的模型需要非常多的计算资源,尤其是内存(RAM),才能在本地运行。
现在的问题是,普通人的电脑或服务器根本没有那么多内存来运行这么大的模型。通常,这种规模的模型需要超级计算机或者专门的云计算资源才能运行。
网友3:
DeepSeek R1的训练过程是一个多阶段训练循环非常有效:Base → RL → Finetune → RL → Finetune → RL扩展阶段=更好的性能吗?
分解每个阶段:
-
R1零→ R1微调冷启动(阶段1/4):纯粹通过 RL 进行训练,没有在标注数据上进行任何初始微调
-
R1冷启动→ R1 Reasoner with RL(第2/4阶段):使用多阶段管道,包括RL和 "冷启动 "数据
-
R1 Reasoning → R1 Finetuned-Reasoner(Stage 3/4):使用 监督微调 来提高 LLM 的推理能力
-
R1指令-推理器→ R1校准(阶段4/4):
网友4:
DeepSeek-R1 论文里说的“顿悟时刻”特别重要,意思是:
只用强化学习(RL),就能让大模型(LLM)自己学会思考和反思。
这跟以前的想法不一样。以前大家觉得,要复制 OpenAI 的 o1 推理模型,得用很多“思维链”(CoT)数据。但现在发现,其实只要给模型正确的“奖励”,它就能学会。
这就像当年 AlphaGo 下围棋一样:AlphaGo 通过玩无数盘围棋,用强化学习最大化奖励(赢比赛),最后打败了最厉害的人类棋手。
现在,大模型(LLM)也进入了强化学习时代。2025 年可能会变成“强化学习之年”。
网友5:
以前,大家担心大人工智能模型会“卡住”,因为网上能轻松找到的、带标签的数据快用完了。但现在,这种新方法告诉我们:不用一直给模型喂带标签的例子了!模型可以通过强化学习(RL)自己学会高级推理能力。简单来说,就是模型自己试试看,然后得到一个信号,告诉它做得好不好。
这意味着,我们不用再等新的带标签的数据了。人工智能可以直接从反馈中学习,变得越来越厉害!
网友6:
“蒸馏”=元认知,元认知就是“对自己思考过程的思考”。你可以把它理解为一种“超级高效解决问题”的能力。OpenAI和DeepSeek都意识到了这一点,但有人认为DeepSeek可能是“借鉴”了OpenAI的思路。
这就是大家为什么惊慌失措,可能是因为这种能力太强大了,甚至有点超出预期。它不仅仅是“感知”或“理解”问题,而是能迅速找到解决方案,效率极高。这种能力让人感到惊讶,甚至有点不安。
那么,如何系统的去学习大模型LLM?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《AI大模型入门+进阶学习资源包**》,扫码获取~
篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈
💥大模型入门要点,扫盲必看!
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
路线图很大就不一一展示了 (文末领取)
👉大模型入门实战训练👈
💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉国内企业大模型落地应用案例👈
💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
👉GitHub海量高星开源项目👈
💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
👉LLM大模型学习视频👈
💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
👉640份大模型行业报告(持续更新)👈
💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓