注:本文为 “DeepSeek” 相关高阅文章合辑。
梁文锋:“中国的 AI 不可能永远跟随,需要有人站到技术的前沿。”
幻方:一家隐形 AI 巨头的大模型之路
暗涌 Waves 2023 年 05 月 24 日 13:50 新加坡
文 | 于丽丽
编辑 | 刘旌
排版 / 杜梦
在蜂拥而至的大模型团战中,幻方大概是最异类的一个。
这是一场注定是少数人的游戏,很多创业公司在大厂入局后开始调整方向甚至萌生退意,而这家量化基金却孤绝前行。
2023 年 5 月,幻方把下场做大模型的独立新组织,命名为 “深度求索”,并强调将专注于做真正人类级别的人工智能。他们的目标,不只是复刻 ChatGPT,还要去研究和揭秘通用人工智能(AGI)的更多未知之谜。
不仅如此,在这个被认为格外依赖稀缺人才的赛道,幻方还试图去集结一批有执念的人,并祭出了他们认为的最大武器:一群人的好奇心。
在量化领域,幻方是一家抵达过千亿规模的 “顶级基金”,但它被这波 AI 新浪潮集中关注到,其实还颇具戏剧性。
当国内云厂商高性能 GPU 芯片缺货成为限制中国生成式 AI 诞生的最直接因素时,据《财经十一人》报道,国内拥有超过 1 万枚 GPU 的企业不超过 5 家。而除几家头部大厂外,还包括一家名为幻方的量化基金公司。通常认为,1 万枚英伟达 A100 芯片是做自训大模型的算力门槛。
其实,这家很少被置于人工智能视野打量的公司,早已是一家隐秘的 AI 巨头:2019 年,幻方量化成立 AI 公司,其自研的深度学习训练平台 “萤火一号” 总投资近 2 亿元,搭载了 1100 块 GPU;两年后,“萤火二号” 的投入增加到 10 亿元,搭载了约 1 万张英伟达 A100 显卡。
这意味着,单从算力看,幻方甚至比很多大厂都更早拿到了做 ChatGPT 的入场券。
只是大模型对算力、算法和数据都有强依赖,所以起步就需要 5000 万美金,训练一次需要上千万美金,非百亿美金公司其实很难持续跟进。各种艰难之下,幻方却很乐观,创始人梁文锋告诉我们:“关键是我们想做这件事,能做这件事,那我们就是最合适的人选之一。”
这种谜之乐观,首先来自幻方的独特成长路径。
量化投资是一个源自美国的舶来品,这使得几乎所有中国的头部量化基金创始班底,都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外:它完全是本土班底起家,独自摸索着长大。
2021 年,成立仅六年的幻方,抵达千亿规模,并被称为 “量化四大天王” 之一。
以局外人杀入的成长路径,让幻方始终像一个搅局者。多位行业人士向我们表示,幻方 “无论研发体系、产品还是销售,都始终在用一种崭新的方式,切入到这个行业中来。”
一家头部量化基金创始人认为,这些年的幻方,始终 “没有按照某种约定成俗的道路在走”,而是 “按照他们想要的方式 ” ,即便是有点离经叛道或者争议,“也敢大大方方说出来 ,然后按照自己的想法去做”。
关于幻方的成长奥秘,幻方内部将之归结为 “选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化”,他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。
而更关键的秘密,或许来自幻方的创始人梁文锋。
还在浙江大学攻读人工智能时,梁文锋就无比笃信 “人工智能一定会改变世界”,而 2008 年,这还是一个不被认同的执念。
毕业后,他没有像周围人一样去大厂做个程序员,而是躲在成都的廉价出租屋里,不停接受进入诸多场景中尝试的挫败,最终切入了最复杂场景之一的金融,并成立了幻方。
一个有趣的细节是,在最早几年,曾有个同样疯癫的、在深圳城中村做着 “不靠谱” 飞行器的朋友拉他入伙。后来这个朋友做成了一个千亿美金的公司,名叫:大疆。
也因此,在做大模型必然涉及的钱、人、算力等话题外,我们还和幻方创始人梁文锋特别聊了聊,怎样的组织架构可以让创新发生,以及人的疯狂可以持续多久。
创业十余年,这是这位鲜少露面的 “技术宅” 型创始人第一次公开受访。
巧合的是,4 月 11 日,幻方在发布做大模型公告时,也引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”
以下为对话:
做研究,做探索
> “做最重要、最困难的事”
「暗涌」:前不久,幻方发公告决定下场做大模型,一家量化基金为什么要做这样一件事?
梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。
幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。
「暗涌」:你们要自训一个大模型,还是某个垂直行业 —— 比如金融相关的大模型?
梁文锋:我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以我们会从这里开始,后边也会有视觉等。
「暗涌」:因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。
梁文锋:我们不会过早设计基于模型的一些应用,会专注在大模型上。
「暗涌」:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。
梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有 OpenAI 指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。
大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。从长期看,大模型应用门槛会越来越低,初创公司在未来 20 年任何时候下场,也都有机会。
我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。
「暗涌」:为什么你的定义是 “做研究、做探索”?
梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。
从近处说,GPT4 还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。
「暗涌」:但研究意味着要付出更大的成本。
梁文锋:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需 finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。
「暗涌」:那研究经费哪里来?
梁文锋:幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。
「暗涌」:但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?
梁文锋:我们也在找不同出资方在谈。接触下来,感觉很多 VC 对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从 VC 那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。
「暗涌」:我们对商业模式做了哪些推演和设想?
梁文锋:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小 app 都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
「暗涌」:一些大厂后期也会有一些服务提供,你们差异化的部分是什么?
梁文锋:大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。
「暗涌」:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。
梁文锋:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。
从商业角度来讲,基础研究就是投入回报比很低的。OpenAI 早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。
我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。
万卡储备与它的代价
>“一件激动人心的事,或许不能单纯用钱衡量。”
「暗涌」:GPU 是这次 ChatGPT 创业潮的稀缺品,你们在 2021 年就可以有先见之明,储备了 1 万枚。为什么?
梁文锋:其实从最早的 1 张卡,到 2015 年的 100 张卡、2019 年的 1000 张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在 IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。
很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。
「暗涌」:什么样的好奇心?
梁文锋:对 AI 能力边界的好奇。对很多行外人来说,ChatGPT 这波浪潮冲击特别大;但对行内人来说,2012 年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当 2020 年 OpenAI 发布 GPT3 后,方向很清楚,需要大量算力;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解。
「暗涌」:所以 2012 年起,你们就开始关注到算力的储备?
梁文锋:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。
「暗涌」:很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?
梁文锋:如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。
「暗涌」:但这个过程也是一个烧钱行为。
梁文锋:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。
「暗涌」:显卡通常会以 20% 的速度在折损。
梁文锋:我们没有精确计算过,但应该没这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。我们之前退役的老卡,二手处理时还挺值钱的,没亏太多。
「暗涌」:搭一个计算机集群,维护费用,人工成本,甚至电费也都是不菲的支出。
梁文锋:电费和维护费用其实是很低的,这些支出每年只占硬件造价的 1% 左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。
「暗涌」:2021 年,幻方是亚太地区第一批拿到 A100 显卡的公司,为什么会比一些云厂商更早?**
梁文锋:我们很早就对新卡做了预研、测试和规划。至于一些云厂商,据我所知,他们之前的需求都是分散的,直到 2022 年自动驾驶,有租用机器做训练的需求,又有付费能力,一些云厂商才去把基础设施建好。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。
「暗涌」:你会如何看大模型的竞争格局?**
梁文锋:大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。
头部的创业公司也有技术做得很扎实的,但和老的一波 AI 创业公司一样,都要面对商业化难题。
「暗涌」:一些人会觉得一个量化基金却强调自己做 AI,是为其他业务吹泡泡。
梁文锋:但其实我们的量化基金已经基本不怎么对外募集了。
「暗涌」:你会如何去辨别哪些是 AI 信仰者,哪些是投机者?
梁文锋:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。
如何让创新真正发生
> “创新往往都是自己产生的,不是刻意安排的,更不是教出来的”
「暗涌」:深度求索团队的招聘进展如何?
梁文锋:初始团队已经集结到位,前期因为人手不够,会从幻方临时借调一部分人过去。去年底 ChatGPT3.5 风靡时,我们就开始动手招聘了,不过我们依然需要更多的人加入。
「暗涌」:大模型创业的人才也是稀缺的,有投资人说很多适合的人才可能只在 OpenAI、FacebookAI Research 等巨头的 AI lab 里。你们会去海外挖这类人才吗?
梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。
「暗涌」:为什么经验没那么重要?
梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。
「暗涌」:在创新业务上,你觉得经验是阻碍吗?
梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。
「暗涌」:幻方从一个完全无金融基因的外行,切入到这个行业,几年内做到头部,这条招人法则是其中秘密之一吗?
梁文锋:我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。
拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。
而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。
「暗涌」:为什么很多家试图模仿你们,却没有成功?
梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。
事实上,第一年他们什么都做不出来,第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有 KPI,也没有所谓的任务。
「暗涌」:那你们的考核标准是?
梁文锋:我们不像一般公司,看重客户下单量,我们的销售卖多少和提成不是一开始就算好的,而会更鼓励销售去发展自己的圈子,认识更多人,产生更大影响力。
因为我们认为,一个让客户信任的正直的销售,可能在短时间内做不到让客户来下单,但可以让你觉得他是个靠谱的人。
「暗涌」:选来合适的人后,用何种方式让他进入状态?
梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。
其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。
「暗涌」:你觉得什么是打造一个创新型组织的必要条件?
梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。
「暗涌」:这是一种非常规的管理方式,这种情况下你如何确保一个人做事是有效率的,而且在你要的方向上?
梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。
「暗涌」:你觉得这波做大模型的竞争中,创业公司更适合创新的组织架构会是和大厂竞争的破局点吗?
梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。
但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。
很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波 AI 新浪潮之下,一定会有一批新公司诞生。
真正的疯狂
> “创新就是昂贵且低效的,有时候伴随着浪费。”
「暗涌」:做这样一件事,最让你们兴奋的是什么?
梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。
「暗涌」:这次大模型招人,什么是我们必卡的条件?
梁文锋:热爱,扎实的基础能力。其他都没那么重要。
「暗涌」:这种人容易找到吗?
梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。
「暗涌」:大模型可能是一件无休止投入的事,付出的代价会让你们顾虑吗?
梁文锋:创新就是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。看 OpenAI 也是烧了很多钱才出来。
「暗涌」:会觉得你们在做一件很疯狂的事吗?
梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。
「暗涌」:这里边会有一种精神奖赏。
梁文锋:类似你徒步 50 公里,整个身体是瘫掉的,但精神很满足。
「暗涌」:你觉得好奇心驱动的疯狂可以一直持续下去吗?
梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。
揭秘 DeepSeek: 一个更极致的中国技术理想主义故事
原创 暗涌 2024 年 07 月 17 日 17:01 北京
文 | 于丽丽
编辑 | 刘旌
排版 / 姚楠
中国的 7 家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。
一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张 A100 芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。
在被 AI 连续轰炸的 5 月,DeepSeek 一跃成名。起因是他们发布的一款名为 DeepSeek V2 的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万 token 仅 1 块钱,约等于 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。
DeepSeek 被迅速冠以 “AI 界拼多多” 之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。
弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek 是有利润的。
这背后,是 DeepSeek 对模型架构进行了全方位创新。它提出的一种崭新的 MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的 MHA 架构的 5%-13%,同时,它独创的 DeepSeekMoESparse 结构,也把计算量降到极致,所有这些最终促成了成本的下降。
在硅谷,DeepSeek 被称作 “来自东方的神秘力量”。SemiAnalysis 首席分析师认为,DeepSeek V2 论文 “可能是今年最好的一篇”。OpenAI 前员工 Andrew Carr 认为论文 “充满惊人智慧”,并将其训练设置应用于自己的模型。而 OpenAI 前政策主管、Anthropic 联合创始人 Jack Clark 认为,DeepSeek “雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”
在基本由硅谷牵动故事进展的 AI 浪潮里,这是罕有的情形。 多位行业人士告诉我们,这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。 一位 AI 研究者表示,Attention 架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。”
而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见:美国更擅长从 0-1 的技术创新,而中国更擅长从 1-10 的应用创新。 何况这种行为非常不划算 —— 新一代模型,过几个月自然有人做出来,中国公司只要跟随、做好应用即可。对模型结构进行创新,意味着没有路径可依,要经历很多失败,时间、经济成本都耗费巨大。
DeepSeek 显然是逆行者。在一片认为大模型技术必然趋同,follow 是更聪明捷径的喧哗声中,DeepSeek 看重 “弯路” 中积累的价值,并认为中国的大模型创业者除应用创新外,也可以加入到全球技术创新的洪流中。
DeepSeek 的很多抉择都与众不同。截至目前,7 家中国大模型创业公司中,它是唯一一家放弃 “既要又要” 路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。这些使得它经常被遗忘在牌桌之外,但在另一端,它又经常在社区被用户 “自来水” 式传播。
DeepSeek 究竟是如何炼成的?我们为此访谈了甚少露面的 DeepSeek 创始人梁文锋。
这位从幻方时代,就在幕后潜心研究技术的 80 后创始人,在 DeepSeek 时代,依旧延续着他的低调作风,和所有研究员一样,每天 “看论文,写代码,参与小组讨论”。
和很多量化基金创始人都有过海外对冲基金履历,多出身物理、数学等专业不同的是,梁文锋一直是本土背景,早年就读的也是浙江大学电子工程系人工智能方向。
多位行业人士和 DeepSeek 研究员告诉我们,梁文锋是当下中国 AI 界非常罕见的 “兼具强大的 infra 工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员” 的人,他拥有 “令人恐怖的学习能力”,同时又 “完全不像一个老板,而更像一个极客”。
这是一次尤为难得的访谈。访谈里,这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把 “是非观” 置于 “利害观” 之前,并提醒我们看到时代惯性,把 “原创式创新” 提上日程的人。
一年前,DeepSeek 刚下场时,我们初次访谈了梁文锋 :《疯狂的幻方:一家隐形 AI 巨头的大模型之路》 。如果说当时那句**「务必要疯狂地怀抱雄心,且还要疯狂地真诚」**还是一句美丽的口号,一年过去,它已经在成为一种行动。
以下为对话部分
价格战第一枪是怎么打响的?
「暗涌」:DeepSeek V2 模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。
梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。
「暗涌」:这个结果让你们意外吗?
梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。
「暗涌」:5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。
梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。
「暗涌」:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。
梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API, 还是 AI, 都应该是普惠的、人人可以用得起的东西。
「暗涌」:在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用,为什么你们会从模型结构切入?
梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama 的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。
「暗涌」:这种代差主要来自哪里?
梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗 4 倍算力。我们要做的,正是不停地去缩小这些差距。
「暗涌」:大部分中国公司都选择既要模型又要应用,为什么 DeepSeek 目前选择只做研究探索?
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。
梁文锋:我们认为随着经济发展,**中国也要逐步成为贡献者,而不是一直搭便车。**过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。
但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
真正的差距不是一年或两年,而是原创和模仿之差
「暗涌」:为什么 DeepSeek V2 会让硅谷的很多人惊讶?
梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。 毕竟大部分中国公司习惯 follow,而不是创新。
「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
「暗涌」:为什么中国公司 —— 包括不缺钱的大厂,这么容易把快速商业化当第一要义?
梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。
「暗涌」:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像 5 月这次 MLA 架构的创新,也会很快被其他家 copy 吧?
梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。 所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。
开源,发论文,其实并没有失去什么。对于技术人员来说,被 follow 是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。
「暗涌」:你怎么看类似朱啸虎的这种市场信仰派观点?
梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。
「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国 AI 不可能永远处在跟随的位置。 我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
更多的投入并不一定产生更多的创新
「暗涌」:现在的 DeepSeek 有一种 OpenAI 早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI 和 Mistral 都有过从开源到闭源的过程。
梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。
「暗涌」:你们有融资计划吗?看有媒体报道,幻方对 DeepSeek 有独立拆分上市的计划,硅谷的 AI 创业公司,最终也都难免要和大厂绑定。
梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。
「暗涌」:很多人认为,做 AGI 和做量化是完全不同的两件事,量化可以闷声去做,但 AGI 可能更需要高举高打,需要结盟,这样可以让你的投入变大。
梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。
「暗涌」:你们现在不做应用,是因为你们没有运营的基因吗?
梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。
「暗涌」:但选择 API 的话,为什么选择 DeepSeek,而不是大厂?
梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。
「暗涌」:但技术真的可以拉开差距吗?你也说过并不存在绝对的技术秘密。
梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。
「暗涌」:你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?
梁文锋:说实话我们不太 care 这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现 AGI。
目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。
「暗涌」:你怎么看 DeepSeek 之外的 6 家大模型创业公司的终局?
梁文锋:可能活下来 2 到 3 家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。
「暗涌」:幻方时代,面对竞争的姿态就被评价为 “我行我素”,很少在意横向比较。关于竞争,你思考的原点是什么?
梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。
一群做 “高深莫测” 事的年轻人
「暗涌」:OpenAI 前政策主管、Anthropic 联合创始人 Jack Clark 认为 DeepSeek 雇佣了 “一批高深莫测的奇才”,做出 DeepSeek v2 的是怎样一群人?
梁文锋:并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前 50 名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2 模型没有海外回来的人,都是本土的。前 50 名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
「暗涌」:这次 MLA 创新是如何发生的?听说 idea 最早来自一个年轻研究员的个人兴趣?
梁文锋:在总结出 Attention 架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个 team,花了几个月时间才跑通。
「暗涌」:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但 AGI 这种充满不确定性的前沿探索,是否多了管理动作?
梁文锋:DeepSeek 也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要 push 他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个 idea 显示出潜力,我们也会自上而下地去调配资源。
「暗涌」:听说 DeepSeek 对于卡和人的调集非常灵活。
梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
「暗涌」:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人, 可以让一些非传统评价指标里优秀的人被选出来。
梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
「暗涌」: transformer 诞生在谷歌的 AI Lab,ChatGPT 诞生在 OpenAI, 你觉得大公司的 AILab 和一个创业公司对于创新产生的价值有什么不同?
梁文锋:不管是 Google 实验室,还是 OpenAI,甚至中国大厂的 AI Lab,都很有价值的。最后是 OpenAI 做出来,也有历史的偶然性。
「暗涌」:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer 诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。
梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt 出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。
「暗涌」:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保 DeepSeek 就是做大模型的人的首选?
梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。 其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
「暗涌」:前一段 OpenAI 的发布并没有等来 GPT5, 很多人觉得这是技术曲线明显在放缓,也很多人开始质疑 Scaling Law,你们怎么看?
梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI 也不是神,不可能一直冲在前面。
「暗涌」:你觉得 AGI 还要多久实现,发布 DeepSeek V2 前,你们发布过代码生成和数学的模型,也从 dense 模型切换到了 MOE, 所以你们的 AGI 路线图有哪些坐标?
梁文锋:可能是 2 年、5 年或者 10 年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对 AGI 也是必要的。我们对一切可能性都保持开放。
「暗涌」:你觉得大模型终局是什么样态?
梁文锋:会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。
所有的套路都是上一代的产物
「暗涌」:过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。
梁文锋:王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。
「暗涌」:现在你的精力最多放在哪里?
梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。
「暗涌」: 其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek 敢于专注在模型研究上是因为模型能力还不够吗?
梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来 AI 的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。
「暗涌」:过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?
梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方 2015 年后的部分,但其实我们做了 16 年。
「暗涌」:回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?
梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。
「暗涌」:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。
以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
DeepSeek V3 刷屏,550 万元 2000 张卡做出的开源模型,和 OpenAI 几亿烧出来的一样好
原创 王兆洋 硅星人 Pro 2024 年 12 月 27 日 11:06 北京
作者|王兆洋
邮箱|wangzhaoyang@pingwest.com
像是迷雾中走出的一头怪兽,DeepSeek V3 在先行 “泄露” 并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek 透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又异常的好 ——
“在预训练阶段,在每个万亿标记上训练 DeepSeek-V3 只需要 180K H800 GPU 小时,也就是说,在我们的具有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为 2664K GPU 小时。结合 119K GPU 小时的上下文长度扩展和 5K GPU 小时的后训练,DeepSeek-V3 的完整训练成本仅为 2.788M GPU 小时。假设 H800 GPU 的租金为每 GPU 小时 2 美元,我们的总训练成本仅为 557 万美元。 请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本。”
“我们对 DeepSeek-V3 进行了全面的基准测试。尽管 DeepSeek-V3-Base 的训练成本较低,但综合评估表明,DeepSeek-V3-Base 已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与 GPT-4o 和 Claude-3.5-Sonnet 等领先闭源模型的性能相当。”
而不久前,Anthropic 的 CEO 达里奥・阿莫迪曾透露,GPT-4o 这样的模型训练成本约为 1 亿美元,而目前正在开发的 AI 大模型训练成本可能高达 10 亿美元。未来三年内,AI 大模型的训练成本将上升至 100 亿美元甚至 1000 亿美元。
也就是,现在 DeepSeek 用 550 万美金 2000 张卡训出的开源模型,和 OpenAI 几亿烧出的模型一样好了。
它旋即被再次称为 “国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseek v3 的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在 “o1” 时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标 GPT-4o 以及 Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3 为幻方旗下的深度求索公司自研 的 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。在 Deepseek V3 技术报告公布的性能指标上来看,这个开源 MoE 模型,已经在性能上 “对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
Deepseek 罗列了几个关键的表现领域:
-
百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
-
长文本: 在长文本测评中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型。
-
代码:DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
-
数学: 在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。
-
中文能力:DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些 AI Infra 平台上线后才跟着发布,反而让它 “口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为深刻。
但 V3 真正重要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度提升上,根据 Deepseek 官方,它的生成速度提升至 3 倍。
通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。
想体验的可以登陆官网 chat.deepseek.com,它也支持 API 访问。而且,新版本将提供 45 天优惠价格体验期,直至 2025 年 2 月 8 日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的 “圣诞礼物” 欢呼了一阵。
能够做到 “提前泄露” 并引起一群自来水测试和把玩的国产模型并不多,无论它是否是 Deepseek 的某种策略,它确实证明了自己受关注和在开发者社区里的真实使用的程度。
根据 Reddit 上最早的 “泄露”,它在基准测试 LiveBench 上评分都挤进了前列。整体性能超过了 gemini 2 flash,以及 Claude 3.5 Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3 针对分布式推理做了创新的优化,进而显著提升了分布式 MoE 模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型提供了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的 V2 一样继续使用 Deepseek 自己一直相信和沿用的 MLA + 细颗粒度的 MoE。简单说就是在注意力机制上做创新,对内存进行压缩,对 MoE 的运行机制进行创新的设计。
此外,几个亮点包括:
Deepseek V3 使用了辅助损失自由负载均衡策略(Auxiliary-Loss-Free Load Balancing)。
在混合专家模型(MoE)中,每个输入 Token 会分配给不同的 “专家” 进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过增加一个额外的 “辅助损失” 来强制均衡负载,但这会对模型性能造成负面影响。DeepSeek 通过动态调整专家的偏置值,使输入 Token 更均匀地分配给不同的专家,而无需引入额外损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整每个专家的偏置,使得分配更公平。它避免了引入额外的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在 MoE 方面的冗余专家机制(Redundant Experts)也是这种追求平衡的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建 “副本”,让这些任务分配到不同的副本上,缓解了计算压力并提升了整体推理速度。这种方法可以显著提升分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更稳定的服务性能。
这些动作相当于是告诉那些调不好参数和平衡的人们:
我比你们更聪明。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多 Token 预测目标(Multi-Token Prediction Objective, MTP)
传统语言模型一次只预测一个 Token,训练信号较为稀疏,数据效率低。MTP 让模型在每个输入 Token 的基础上同时预测多个未来 Token,这样每次训练能提供更多的反馈信号,加速模型的学习。也就是,不是简单地并行预测多个 Token,而是通过顺序预测保持每个 Token 间的因果链条。这样既提升了训练效率,也让模型在推理时能够更好地 “规划” 其输出。
对 FP8 低精度训练的优化。
FP8 是一种极低精度的数据表示形式,比 FP16 和 BF16 的精度更低,但占用的内存和计算资源也更少。问题是 FP8 的动态范围有限,容易出现数值溢出或不足。DeepSeek 通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更灵活地适应输入数据的变化范围,避免低精度带来的精度损失。
这种 “分块量化 + 高精度累加” 的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法结合 FP8 的低资源消耗和高精度运算,解决了传统低精度训练中的不稳定性问题。它大幅减少了训练所需的内存和计算成本,同时保持了与高精度训练相当的稳定性和性能。
除了模型方面,在训练设施上的创新也很关键,比如 DualPipe 流水线并行策略。
在分布式训练中,多个 GPU 需要同时处理大量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,造成资源浪费。DualPipe 通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用了每一块 GPU 的性能。这个设计的核心是将数据分成小块,交替执行 “计算” 和 “通信” 任务。通过精确调整各任务的优先级和资源分配,让 GPU 在计算时也能同时处理通信操作,几乎完全消除了流水线中的 “空闲时间”。除了提升效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,Deepseek V3 更是受到了犹如畅销书发布的待遇 —— 大佬们纷纷为他撰写推荐 “腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta 的田渊栋也直接表示:
“DeepSeek 这真是把 H800 hack 了底朝天 [捂脸] 太夸张了😂”
Andrej Kaparthy 也再次赞扬 Deepseek 的技术报告值得一读。
另外一个有意思的地方是,今天最重要的一些 AI Infra 创业公司的创始人们也对 Deepseek V3 充满好感。一个在推理侧再次推动着创新并由此可以刺激市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeek V3 训练仅用了 2000 张 H800,算力成本 6 百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一决定因素,聪明的人加创新更让人敬佩。”
Lepton 的创始人贾扬清则在朋友圈和 X 同时点评了 V3 给他带来的思考。
・首先,现在我们正式进入了分布式推理的时代。一台单 GPU 机器(80*8=640G)的显存已经装不下参数了。新的大显存机器确实能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
・即使在单个模型中,也需要关注 MoE 的负载均衡,因为每次推理只有大约 5% 的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
・论文中特别提到引入 “redundant expert” 的概念,正是为了解决这个问题。这已经不是 “一个模型多个副本” 的问题,而是 “每个模型子模块都有多个副本”,然后独立扩缩容。
・输入 token 的盈利模式已经很明确了。我个人推测,想让输出 token 变得盈利或至少收支平衡需要更多优化。不过如果我们相信 “软件摩尔定律”(每 18 个月单 token 成本减半),这就不是问题。
・Tile 或 block 级别的量化是必需的。这也和我们在 Lepton 的观察一致。我们还支持基于输入数据的动态量化(ahead-of-time dynamic quantization)。另外等硬件支持 FP4 以后肯定还有不少可以玩的花样。
・冷知识:FP4 乘法实际上就是个 16*16 的 table lookup…
・论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的 NVIDIA 新硬件形态(比如 NVL72)能如何提升分布式推理的性能和便捷性。
“Exciting years.” 他说。
在 V3 发布之前,Deepseek 曾经被海外知名的 “爆料 + 深度分析” 的技术博客又一次提到 Deepseek,这个以芯片领域的一手信息著称的博客已经是对 Deepseek 最关注的海外分析师,但它似乎依然没想到 Deepseek 的重要性并不在于与 OpenAI 们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis “爆料” 称 Deepseek 已经有很多很多的卡。但在 V3 发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到 Nvidia 泡沫破裂的时刻”。
一切都在快速的展开。神话 OpenAI 们,尤其是以 “卡” 的名义神话然后看低中国开发者们自己的模型和 Infra 创新能力的阶段看起来要结束了。当然,前提是你不是只想 “跟着喊几句” 的创新,而是你真的做着能在全球都急需模型往前走的创新技术的时候,被大家能看到的真正的工作。
把训练成本打下来 99%!吊打 GPT 又 “征服” OpenAI 创始成员,DeepSeek “国产之光” 实至名归?
AI 前线 2024 年 12 月 27 日 12:30 辽宁
整理 | 华卫、核子可乐
一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ” 的人工智能模型。
昨晚,DeepSeek 发布了最新系列模型 DeepSeek-V3 首个版本并同步开源。该模型可以处理一系列基于文本的工作负载和任务,如编码、翻译以及根据描述性提示撰写论文和电子邮件。根据 DeepSeek 的内部基准测试,DeepSeek V3 的性能优于可下载的 “公开 ” 可用模型和只能通过 API 访问的 “封闭 ” 人工智能模型。
在编程竞赛平台 Codeforces 主办的编码竞赛子集中,DeepSeek 的表现优于 Meta 的 Llama 3.1 405B、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 72B 等模型。DeepSeek V3 还在 Aider Polyglot 测试中击败了竞争对手,该测试旨在衡量模型是否能成功编写新代码,并将其整合到现有代码中。
“综合评估表明,DeepSeek-V3 已成为目前可用的最强大的开源模型,其性能可与 GPT-4o 和 Claude-3.5-Sonnet 等领先的闭源模型相媲美。”DeepSeek 表示。
6710 亿参数,训练规模不到 600 万美元
根据该公司的许可协议,这套新模型可以通过 Hugging Face 获取,其参数规模达到 6710 亿,但会使用混合专家架构以保证仅激活选定的参数,以便准确高效地处理给定任务。目前,DeepSeek-V3 代码可通过 GitHub 基于 MIT 许可进行获取;企业亦可通过类似 ChatGPT 的 DeepSeek Chat 平台测试这套新模型,并访问 API 以供商业使用。
- 模型权重下载和更多本地部署信息可参考:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base*
GitHub 链接:https://github.com/deepseek-ai/DeepSeek-V3
与其前代成果 DeepSeek-V2 一样,这款最新超大型模型使用同样的基础架构,围绕多头潜在注意力(MLA)与 DeepSeekMoE 构建而成。这种方法确保其始终保持高效的训练与推理能力,同时配合有针对性的共享 “专家”(即大模型内各独立且体量较小的神经网络)为各个 token 相应激活总计 6710 亿参数中的 370 亿个。
除了利用基础架构保证 DeepSeek-V3 拥有强大性能之外,DeepSeek 方面还发布了另外两项进一步提高模型表现的创新。
首先是辅助无损负载均衡策略,用以动态监控并调整专家负载,以均衡方式加以使用,保证不会损害模型的整体性能。其二则是多 token 预测(MTP),这允许模型同时预测多个未来 token。这项创新不仅提高了训练效率,还使得模型的执行速度提高了三倍,每秒可生成 60 个 token。
该公司在详细介绍新模型的技术论文中写道,“在预训练期间,我们在 14.8 T 高质量且多样化的 token 上训练了 DeepSeek-V3…… 接下来,我们对 DeepSeek-V3 进行了分两个阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展至 32K;在第二阶段,则进一步扩展至 128K。在此之后,我们在 DeepSeek-V3 的基础模型之上进行后训练,包括监督微调(SFT)和强化学习(RL),以确保其与人类偏好保持一致并持续深挖模型潜力。在后训练阶段,我们从 DeepSeekR1 系列模型中蒸馏推理能力,同时谨慎地在模型精度与生成结果长度之间保持平衡。”
值得注意的是,在训练阶段,DeepSeek 使用了多项硬件及算法优化方法,包括 FP8 混合精度训练框架以及用于管线并行的 DualPipe 算法,旨在降低流程运行成本。据介绍,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升。
总体而言,该公司称,DeepSeek-V3 的全部训练任务在约 278.8 万个 H800 GPU 小时内就能完成。假设租赁价格为每 GPU 每小时租金为 2 美元,则约为 557 万美元,这比以往大语言模型动辄上亿美元的预训练成本明显要低得多。例如,Llama-3.1 模型的训练投入估计超过 5 亿美元。
曾是 OpenAI 创始成员之一的 AI 科学家 Andrej Karpathy 也被 DeepSeek-V3 的超低训练成本所震惊,“在资源限制下,它将是一个非常令人印象深刻的研究和工程展示。” 他表示,这种级别的能力应该需要接近 16K GPU 的集群,而现在提出的集群更多的是 100K GPU 左右。这是否意味着前沿 LLM 不需要大型 GPU 集群?
“资源约束是一件美好的事情。在竞争激烈的 AI 竞争领域中,生存本能是取得突破的主要驱动力。” 曾师从李飞飞教授、如今领导英伟达具身 AI 团队的高级研究科学家 Jim Fan 称。
此外,也有网友就 DeepSeek-V3 采用 H800 GPU 达到的低训练成本讨论到美国芯片出口管制的问题。Kaggle 大神、数据科学家 Bojan Tunguz 这样评价道,“所有对高端半导体的出口禁令实际上可能以可以想象的‘最糟糕’的方式适得其反。它们似乎迫使中国研究人员比原本更聪明、更节省资源。这似乎也证实了我自己的假设,即我们离拥有 AI 的 ML 部分的最佳算法还差得很远。”
效果和价格 “吊打” 一众模型
尽管训练成本低廉,但 DeepSeek-V3 仍一跃成为当前市面上最强的开源大模型。
该公司运行了多项基准测试以比较其 AI 性能,并指出 DeepSeek-V3 以令人信服的表现优于其他领先开放模型,包括 Llama-3.1-405B 以及通义千问的 Qwen 2.5-72B,其甚至在大多数基准测试中都优于闭源 GPT-4o 模型,仅在以英语为中心的 SimpleQA 和 FRAMES 测试中稍逊一筹。OpenAI 模型分别得到 38.2 分和 80.5 分,而 DeepSeek-V3 则为 24.9 分和 73.3 分。
并且,DeepSeek-V3 的表现在以中文和数学为中心的基准测试中尤其突出,得分高于所有同类大模型。在 Math-500 测试中,其得分高达 90.2,远高于排名第二的 Qwen 的 80 分。目前,能够挑战 DeepSeek-V3 的模型可能只有 Anthropic 的 OpenAI 的 o1 和 Claude 3.5 Sonnet。
据悉,o1 在 GPQA Diamond(博士级科学问题)基准测试中获得了 76% 的分数,而 DeepSeek 则以 59.1% 的分数落后。o1 的完整版在多项基准测试中击败了 DeepSeek。Claude 3.5 Sonnet 在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 测试中以更高的分数超越了 DeepSeek-V3。
目前,DeepSeek 为 DeepSeek-V3 API 设定的价格与上一代 DeepSeek-V2 相同,即每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中)、每百万输出 tokens 2 元。但在明年 2 月 8 日之后,计费标准将调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。
而 DeepSeek v3 的价格也获得了不少用户的好评。有中国网友称 DeepSeek v3 是 “国产之光”,也有国外的网友认为 DeepSeek v3 的性价比