1、美国AI圈被彻底震撼
DeepSeek R1——
- 达到了跟o1相当、或者至少接近的推理能力,它是除了OpenAI自家,目前唯一一个做到这一点的模型;
- 它做到这个水平只用到少得多的资源,所以价格十分便宜;
- 它是完全开源的;
- DeepSeek公司甚至发布论文,详细介绍了训练中所有的步骤和窍门 —— 而你要知道OpenAI至今对o1的算法和训练方式保密;
- 而DeepSeek公司是一家纯粹的中国公司。
o1水平、超低价格、完全公开,做到任何一条都是爆炸性新闻,而R1全做到了。 你就是写小说鼓吹中国AI有多强都不敢这么畅想,但这就是事实!
这两天X上的美国AI圈被彻底震撼,都感到不可思议,可是上手各种测试发现的确超级厉害,所以现在是好评如潮。我先给你汇总一下各方的反应,再稍微谈谈我的看法。
2、DeepSeek成为天下极客仰望的焦点
英伟达资深研究员Jim Fan,对每一次AI进展都有深刻的洞见,他的说法不可不听。这一次对R1,他的评论是——
「我们生活的这个时间线上,是一家非美国公司,在延续OpenAI最初的—— 真正开放的前沿研究,赋能所有人。这简直不可思议。这是最有趣的结局竟然成真了。」
他不但赞美了DeepSeek的开放,而且嘲讽了OpenAI今天一个暗示明天一个代号的不透明风格。
这是非常鲜明的对比。我们一直说开源是硅谷精神。你OpenAI最初的愿景就是开放,人家Meta也是坚决开源,只不过技术目前没你强……而现在是一家中国公司,不但接近你的技术水平,而且完全开源,连技术细节都公开了!
所以现在舆论是一边倒支持DeepSeek。我上两个截图你体会一下——
说的严重点,DeepSeek等于是给中国找到一面道义大旗。这次不但是一雪前耻,而且直接成为天下极客仰望的焦点。
而且这个仰望不只是道义上的,也是技术上的。
3、目前唯一一个支持上网搜索的推理模型
先看性能。R1在数学、编程和推理任务上的跑分已经达到,甚至偶尔超过了,o1的水平。
当然你可以说中国公司喜欢刷分,可能模型专门做过针对性的训练,但用户的体感是真的。我看X上用户的真实体验,R1水平确实很强。而且至少在一个编程案例上,它的表现比o1 pro还要好。
也有些用户发现,包括我自己也感觉,R1在生成洞见、创造性发挥和说理论证方面距离o1 pro还有相当的差距。
但你要知道这是一个比较小的模型,它总共只有6710亿个参数,而且是由一系列混合专家模型(Mixture of Experts)组成的,它一次推理调用的参数只有370亿个。
R1思考速度快而且非常省钱。官网直接用,它是免费的。如果是在自己的应用中调用API,它的输出价格是一百万tokens 2.19美元,相当于o1 60美元的4%!这意味着你可以用R1做很多很多日常的事情。
而且R1还支持上网搜索和PDF阅读——这是o1目前所没有的功能。我自己试用的体感不是说那么惊艳,但非常可用,而有的美国用户则表示感觉水平比ChatGPT搜索和Perplexity都高——
要知道这可是目前唯一一个支持上网搜索的推理模型。
4、什么叫赋能,这就叫赋能
DeepSeek的开放有多彻底呢?它不但开源、免费可下载和公开了训练方法,而且允许任何人用R1做数据蒸馏,去训练自家的模型,而且你可以商业化。
DeepSeek甚至已经用市面上的两个开源模型,阿里的Qwen和Meta的Llama,蒸馏出来六个小模型供你随便用。它们的跑分都相当高——
这些蒸馏出来的小模型很不简单。其中一个有320亿参数的小模型,数学和编程性能直接超越了o1-mini。
还有一个只有15亿参数的迷你小模型,数学和编程性能已经超过了当今最主流的两个非推理模型,也就是GPT-4o和Claude 3.5 Sonnet——而它小到可以运行在你的个人电脑,甚至是手机上!有人已经用上了——
这是非常不可思议的事情!你要知道,仅仅半年前,这两个模型还是神一样的存在……而你现在不用上网,自家手机就可以拥有它们至少是数学和编程方面的能力。
还有个哥们似乎是直接把整个R1下载运行了。为此他用了一台Mac笔记本和七台Mac Mini。
还有个前Deepmind的研究员,直接用R1蒸馏出一个自己的模型,数学和编程性能超过了o1-preview——
什么叫赋能,这就叫赋能。
5、DeepSeek的秘密是什么?
咱们再看DeepSeek介绍R1的论文[1],这篇论文是一个珍宝!因为这是有史以来第一篇公开了推理模型的秘密的论文。你要知道此前只有OpenAI有推理模型,连Anthropic和Meta都没有发布自己的推理模型,而OpenAI对o1怎么推理实行保密,外界只能猜测……
所以有人说,现在所有AI实验室都在阅读DeepSeek这篇论文——
DeepSeek的秘密是什么呢?是没有人为干预的强化学习。就如同当年的AlphaZero不看任何棋谱,自己跟自己下围棋一样,工程师并没有告诉模型如何推理,只是你做对了我给奖励——它完全靠自己摸索,就掌握了推理方法。研究者首先训练了一个叫DeepSeek-R1-Zero的基础模型,它在训练过程中自行涌现出来了几个解题方法——
- 解数学题会写下步骤,自动检查每一步是否正确
-解题中间如果意识到错误,会中断思考,重新推导;
-解完一道题会反思回顾自己的解题步骤,尝试不同的方法,寻找最优解;
-能自动生成非常详细的解题步骤;
-如果感觉题目比较难,会自动延长推理步骤,增加推理时间……
简单说,它就像是人一样在做题。而我再强调一遍,训练者并没有告诉模型你应该这么解题,这些都是模型自己摸索出来的能力!
更有甚者,模型在推理过程中还涌现出一个「aha 时刻」,也就是解决关键一步,恍然大悟的时刻——
在场研究者第一次目睹这个现象都震惊了。模型就好像活了一样,它有像人一样的思想爆发火花,你甚至可以说它的智能自行升级了。
R1-Zero有时候喜欢中英文混合输出,界面不太友好,所以研究者又把它进一步人性化,才得到R1。
最近OpenAI的研究者也出来讲话,说是用的是强化学习自动涌现,听起来跟DeepSeek论文里的路数一致。但OpenAI从未提供过任何细节,DeepSeek等于是不但自己探索,而且还公之于众了。
还有个有意思之处是R1每一次输出的时候,都提供了自己的思考过程——这也是OpenAI不愿意全给的。很多人表示单纯阅读那些思考过程也很有收获。比如沃顿商学院教授伊桑·莫利克(Ethan Mollick)感慨说,目睹R1第一人称的思考过程,你不能不强烈感觉它是一个人……
所有这些,都是R1之前我们不知道的。请允许我再说一遍:现在是一家来自中国的小公司,给人类贡献了决定性的AI新知。
6、独树一帜的重量级存在
主流编程软件Cursor中已经可以直接调用R1,大量的程序员会每天用它。中国没有对美国用户施加任何限制,甚至Google账号可以直接登录DeepSeek官网。你再对比一下OpenAI的种种限制,到底谁更open?
最后我再说一点展望。
DeepSeek用这么少的算力就能做到这么好,对所有人都是重大启发,我相信OpenAI也会琢磨这到底是为什么。如果DeepSeek找到了低算力高效率的大门,对整个人类都是好消息。
但是,OpenAI投入那么大算力不是白费的。我理解R1是专门在数学和编程这两项上做的优化,它完成别的任务的水平还不够强。我自己的体感是,比如用来搞清楚一个什么科学问题,它能力不如o1-pro。
我怀疑这里面可能有个二八定律。你用比较少的算力资源,就能应对比如说工作中80%的问题——但是要想覆盖剩下的20%,你需要投入多的多的资源。而后者恰恰是OpenAI要做的事情。
这两天另一个大新闻是OpenAI和软银等公司联手,要搞个5000亿美元的大项目,叫「星际之门计划(The Stargate Project)」,对标当年美国搞原子弹的曼哈顿计划和后来的登月计划。这个项目要做的事情不是编程和解数学题,甚至不是AGI——而是ASI,是用于加速各个领域的科研,是探索未知世界。
前几天还有消息爆出,OpenAI一年多前就搞了个生物学模型叫GPT-4b mini,目前已经找到了把普通细胞变成干细胞的方法,有望给人类增加10年寿命。
这次的星际之门,几个领导人谈论的都是科幻级的科学突破,比如用AI探测癌症并且在48小时内用基因编辑+mRNA的方式给你提供疫苗,从而治愈一切癌症;山姆·奥特曼甚至说很快一切疾病都可以治愈。
所以我们不能低估算力的作用,更不能低估美国的野心。 这是一场国运之争。也许当你读到这期专栏的时候,OpenAI的Operator功能就已经上线了。OpenAI仍然大幅度领先。
但是中国现在至少有个DeepSeek!这不是追赶更不是复制,这是独树一帜的重量级存在。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。