时代巨响——也谈DeepSeek从V3到R1

SE7EN_七七

已于 2025-01-22 12:47:33 修改

阅读量2.3w

点赞数 36

文章标签：人工智能

于 2025-01-22 12:44:38 首次发布

本文链接：https://blog.csdn.net/SE7EN_CHLOE/article/details/145298744

版权

过去的2024年AI大模型领域热搜不断，国内国外都是一样。

从OpenAI发布了GPT-4o，到月之暗面成为国内大模型赛道估值最高的“独角兽”引发股权资本争议；从推理型模型和视觉模型的新秀竞出，到市场竞争加剧致使“百模大战”逐渐退潮。

一年时间虽短，剧情跌宕起伏。

这里想着重提及的有两件事：一是斯坦福大学AI团队抄袭国内骄子面壁智能（有空另说），另一是深度求索（DeepSeek）年末岁初连发两弹，从V3到R1。今天有空就详细说说对第二件事的看法。

一、混沌乾元，哪吒出世

时间拨回2023年7月，中国量化私募公司“幻方量化”创始人梁文峰创立了深度求索（DeepSeek）。为什么这个私募公司可以做AI大模型呢，估计当时他们手头有足够的英伟达芯片。

毕竟在大模型的春秋战国时代，自从2022年底OpenAI的GPT横空出世，但凡有点儿资本实力的都想去挑战一下。未来蓝海，凭什么只有你游在最前面。

大模型是“智能大脑”，事实证明它不仅限于聊天对话，在优化程序、提高效率、创设方式、赋能场景方面频频出彩；大模型也是十足的“吞金兽”，模型训练需要强大算力支撑，而算力又靠GPU计算性能，这也就是英伟达老黄横行科技领域的资本。

君不见，万千板卡，说买就买；谈笑间，数亿美刀，沉落不现。

金元XX，这个词我熟悉啊！世纪初的互联网初潮，上一个十年的中国足球……

二、挑战权威，重磅核弹

当时的形势是，2022到2023年欧美陆续出台芯片法案，一方面扶持本国半导体和人工智能技术，另一方面限制向中国等地区高性能芯片出口。

怎么，你学习好还能补课就罢了，中学生还开始撕小学生的书本了。

小学生有自己的智慧，他们从来都不是只会模仿的人。

OpenAI创设的大模型训练范式“预训练-监督微调-奖励建模-强化学习”，可以简单理解为：大量样本填鸭-学习标准答案改进-人工干预打分-根据打分再优化。

DeepSeek决定不走这条路，一方面要烧太多钱，资本游戏玩不起。另一方面，有钱也不好买GPU显卡，美国第一轮限制英伟达推出了A800和H100替代品，第二轮这两款也受限，第三轮，还不知道有没有第四轮。

据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估，OpenAI于2023年3月发布的GPT-4模型训练成本约在7800万美元，同年发布的谷歌Gemini Ultra的计算成本花费预估为1.91亿美元。据Meta官方信息，2024年7月面世的开源模型Llama3.1-405B，训练使用了1.6万块英伟达H100 GPU。超级富豪埃隆·马斯克同样曾在2024年7月宣布建立孟菲斯超级AI集群，使用10万个英伟达 H100 GPU。

DeepSeek的路线是从算法突破，找到算法与算力平衡的最优解，优化算法从而节省算力。

2024年12月26日，DeepSeek推出开源模型DeepSeek V3。其官网显示，在多项基准测试结果中，DeepSeek V3的成绩超过Meta公司的Llama3.1-405B等开源模型，而且与OpenAI的GPT-4o闭源模型的表现也不相上下。更为重要的是，DeepSeek方面披露，其训练成本仅为557.6万美元和2000块英伟达H800 GPU。

2025年1月20日，DeepSeek再次发布“王炸”——推理模型DeepSeek R1。也就是说，除了文本、图像、音频和视频等多种场景下使用的V3版本外，擅长复杂运算和逻辑推理进而可以应用于科学研究的R1落地，并且完全开源免费！