中国大模型的 “赵心童时刻“：DeepSeek R2发布在即，起底其逆袭方法论

最新推荐文章于 2025-05-12 11:08:18 发布

大模型教程

最新推荐文章于 2025-05-12 11:08:18 发布

阅读量620

点赞数 15

文章标签：人工智能 AI 大模型产品经理 DeepSeek AI大模型大模型入门

本文链接：https://blog.csdn.net/2401_84204207/article/details/147890501

版权

理性分析，DeepSeek之所以过年期间那么热，是因为开源和低成本，而不是因为它的生成效果就是最拔尖的。

至少从这篇回答的热度来看，持续了一个多月了，DeepSeek在知友心目中的热度消散得其实没那么快。

当然，DeepSeek确实当时一战封神了，因为它效果直逼当时闭源的ChatGPT o1，这可是当时推理模型号称最好的模型（先不说当时还仅在宣传阶段的o3）。

这让OpenAI不得不重新思考自己的收费价格和开源策略，并在后面做了针对性调整。

这让曾经的开源王者Llama也无比紧张，因为当时他们正在研发的Llama 4实测效果远不如DeepSeek。即使4月放出后，也出现在多项基准测试中，Llama 4的实际表现远低于官方宣传。

二、一鲸起，万物生：DeepSeek 如何搅动 AI

DeepSeek事实在已经成为它LOGO所表现的那样，一鲸起，万物生。

这一起，让腾讯元宝加持了DeepSeek之后，从原来的第二梯队不温不火，直接窜到了AI类APP前三。

这一起，让百度也不得不开始拥抱开源，计划开源百度文心大模型，当然，这个计划貌似有点慢，之前说是4月份，现在又拖到了6月底。

这一起，让很多AI大模型能力不太强的互联网公司仿佛找到了救命稻草，可以扬长避短，发挥自己在产品体验上的优势，做出用户更爱用的产品，比如360的纳米搜索。

这一起，让众多硬件服务器供应商乐了，年后的DeepSeek一体机需求接踵而至，各大企业都要私有化部署DeepSeek，根据不同的预算可选择满血版，70B、32B蒸馏版等，号称接入了DeepSeek的企业，政府机构，医院，学校等等，多得我数都数不清。

这一起，对接toB企业的知识库问答也变成了刚需，也让众多拥有RAG增强检索生成优化能力的AI企业看到了更多的商机。

在互联网世界里，一个热词不可能持续火热，人们总是希望看新鲜感更强的新闻，但是，DeepSeek事实上已经深深影响到了方方面面。

三、DeepSeek 的“斯诺克赵心童时刻”：从草根黑马到行业

最近斯诺克世锦赛夺冠的赵心童，是一个只有外卡参赛、没有世界排名的“业余选手“，一举从资格赛开始八连胜，连克奥沙利文，马克·威廉姆斯两位冠军拿手到手软的传奇人物，成为中国首位、也是亚洲首位获得该赛事冠军的选手。

而DeepSeek有点像他一样，原来没什么热度，创业人员基本都是中国本土培养的，没有海外的高光履历，风头也不及国内的“AI六小虎”，但是不鸣则已，一鸣惊人。

按最近的热度，我把DeepSeek的出圈定义为了"赵心童时刻"，但从时间角度来看，是DeepSeek先火的，赵心童夺冠或许也可以定义为"DeepSeek时刻"。

DeepSeek让美国持续紧张，以至于逼迫NVIDIA将中国特供版H20芯片也断供了。皮衣黄也不得不穿上西装，喝上大酒，来到中国甲方爸爸这边，承诺再针对性地开发一款可以满足满足目前各种限制的新特供版。当然了，等你做出来了之后，我们要不要还是另外回事儿。

事实上，凭借自己过硬的实力，深度求索公司俨然已经掌握了开发AI大模型的核心要义。

四、万亿参数野望：DeepSeek 的“憋大招”

所以你说DeepSeek的热度会消散吗？那只是它正在闭关憋大招呢。它的一举一动，就如一位大明星一样，都会让人无比关注。行业对 DeepSeek 的持续关注，本质是对其技术潜力的期待：

这种关注，就是2月24日开始的DeepSeek开源周陆续开源了FlashMLA，通信库DeepEP，并行文件系统3FS等，覆盖了大模型训练、推理、存储等关键环节，技术深度和实用性获业界高度评价。

这种关注，就是DeepSeek更新其V3版本的新模型DeepSeek-V3-0324之后，其编程能力可以直接对标最强的Claude-3.7-sonnet。让其又热了一把。

这种关注，就是五一节前最后一天DeepSeek发布了数学定理证明模型DeepSeek-Prover-V2-671B，被业界视为数学AI领域的重大突破。

这种关注，就是各大AI公司，无论是国外顶尖的，还是国内顶尖的，都在评测中自然而然地把DeepSeek加入对比栏，看看是不是超过了。

这种关注，还包括更加劲爆的DeepSeek R2坊间传闻，参数规模或达1.2万亿，可实现全国产芯片训练，成本预计比GPT-4降低97%。其多模态能力可能扩展至文生视频领域。简直让人期待值拉满……

诚然，OpenAI的GPT o3的多步图片推理很强，DeepSeek目前还做不到；

豆包也加入了深度思考，在有时候我对比用的时候感觉也不弱于DeepSeek R1，甚至其多次思考多次检索的方式我认为改更合理一些。

阿里开源的Qwen-3-235B号称就吊打DeepSeek R1，甚至小尺寸的32B模型在某些场景都能直逼R1，那基本上可以直接秒杀DeepSeek 70B版本了，在企业私有化部署场景下简直是福音。

我想，这也是DeepSeek给整个社会带来的价值，良性竞争，普惠大众，最终然后人人都能用得起AI。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。