顶尖性能,训练成本仅1/10!中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元...

关注公众号,发现CV技术之美

一夜之间,来自中国的大模型刷屏全网。

42c5fa4d60fd6aa643c4a66b1bb29706.png

DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。

在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

在数学代码方面,DeepSeek-V3完全碾压GPT-4o。尤其是中文能力,全面领先国外的领先大模型。

33faaca1513375bf993d040a0d25b17d.png

就看这闪电般的推理速度,就知道模型有多强了。

bc4c6711882a96b4617aef095f95293f.gif

值得一提的是,DeepSeek-V3在14.8T高质量token上完成了训练,模型和论文100%开源。

b41ae7c92503fc5c406b58e87d2d7b64.png

论文地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

新模型惊艳出世,彻底掀翻了整个AI圈。业界多位AI大佬,纷纷对此表示震惊,将重点转向其训练成本GPU之上。

论文中,明确提出了DeepSeek-V3仅使用2048块GPU训练了2个月,并且只花费了557.6万美金。

4af411fe25ec1b37baaa484b1fee3b61.png

Karpathy惊叹道,「作为参考,要达到这种级别的能力,通常需要约1.6万个GPU的计算集群。不仅如此,当前业界正在部署的集群规模甚至已经达到了10万个GPU。

比如,Llama 3 405B消耗了3080万GPU小时,而看起来更强大的DeepSeek-V3却只用了280万GPU小时(计算量减少了约11倍)。

到目前为止,模型在实际应用中的表现相当出色——不仅在LLM竞技场名列前茅,而且从Karpathy本人的快速测试来看,结果也都很不错。

这说明,即便是在资源受限情况下,模型也能展现出令人印象深刻的研究和工程能力。

这是否意味着前沿LLM不需要大型GPU集群?不是的,但这表明,你必须确保不浪费已有的资源,这个案例很好地证明了在数据和算法方面还有很大的优化空间」。

93856d979dceceda08340e9d42ab853b.png

另外,贾扬清针对推理提出了几点自己的思考:

  • 首先最重要的是,我们正式进入了分布式推理时代。一台单GPU机器(80×8=640G)的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型,但不论如何,都需要分布式推理来保证性能和未来扩展。

  • 即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。

  • 论文中特别提到引入「redundantexpert」概念,正是为了解决这个问题。这已经不再是「一个模型多个副本」的问题、而是「每个模型子模块都有多个副本」,然后独立扩缩容。

  • 输入token很容易实现盈利。根据个人专业判断,需要大量优化才能使输出token盈利或实现收支平衡。但如果我们相信「软件摩尔定律」,这就不是问题:每18个月单token成本减半。

  • 需要进行分块(tile)或块(block)级别的量化。

  • 等硬件支持FP4以后,肯定还有不少可以玩的花样冷知识:FP4乘法实际上就是个16×16的table lookup等等……

07720ee258bb282bfc3a1f0d7a3115b3.png

中国模型一夜击败GPT-4o,100%开源

DeepSeek-V3不俗表现,是在上一代V2进一步升级和迭代。

在基准测试中,数学领域MATH 500上,DeepSeek-V3拿下了90.2高分,比Claude 3.5 Sonnet、GPT-4o超出10分还要多。

同理,在AIME 2024测试中,DeepSeek-V3也取得了领先优势,飙升近20分。

在代码Codeforces基准上,新模型以51.6分刷新SOTA,比国外大模型高出30分左右。

在软件工程SWE-bench Verified基准上,DeepSeek-V3略显逊色,Claude 3.5 Sonnet以50.8分碾压所有模型。

另外,在多语言能力(MMLU-Pro)方面,V3提升并不明显。知识问答基准(GPQA-Diamond)上,V3也是仅次于Claude 3.5 Sonnet。

38c342fd5dc16fde22be266f71fed6f1.png

如下这张图表,更详细地展示了DeepSeek-V3在各种基准测试中的结果。

c8eaabd6526c623d9a771d5203332e73.png

53页技术报告中,特比强调了V3的训练成本取得了最大的突破。

团队特意强调了,新模型的完整训练仅需要2.788M个GPU小时。即便如此,它在训练过程中非常稳定,没有遇到过任何不可恢复的loss突增,也没有执行任何rollback操作。

DeepSeek-V3训练成本如下表1所示,这是背后团队通过优化算法、框架、硬件协同设计最终实现的。

在预训练阶段,模型每训练1万亿token仅需要180K个GPU小时,即在配备2048个GPU的集群上只需3.7天。

因此,DeepSeek-V3预训练阶段耗时不到2个月就完成了,总共消耗2664K个GPU小时。

另外,再加上上下文长度scaling所需的119K GPU小时和后训练的5K GPU小时,由此V3完整训练仅消耗2.788M个GPU小时。

团队表示,假设GPU的租用价格为2美元/每GPU小时,DeepSeek-V3总训练成本仅为557.6万美元。

bac9e7fe2bca0aeb9d624eb07730c68f.png

那么,究竟是怎样的技术突破,使得DeepSeek-V3实现了质的飞升?

训练细节

正如开头所述,DeepSeek-V3是一个强大的混合专家模型(MoE),总参数量为为671B,每个token激活37B参数。

它继续采用了多头潜在注意力(MLA)来实现高效推理,以及DeepSeekMoE实现低成本训练。

这两种架构的优势,已经在上一代V2中得到了验证。

除了基本框架之外,研究人员还采用了两个额外的策略,来进一步增强模型的能力:

  • 采用无辅助损失(auxiliary-loss-free)方法来实现负载均衡,目的是最小化负载均衡对V3性能造成的不利影响。

  • 采用多token预测训练目标,结果证明能够提升V3在评估基准上的整体性能。

77df6379c0a7d54b14cd23d278111448.png

DeepSeek-V3框架

为了实现高效训练,团队采用了「FP8混合精度训练」,并对训练框架进行了全面优化。

通过支持FP8计算和存储,实现了训练加速和GPU内存使用的减少。

7aa59894653d2d21365685230389c56f.png

在预训练阶段,DeepSeek-V3在14.8T高质量且多样化的token完成了训练,然后又对模型进行了监督微调、强化学习阶段。

由此,我们才看了DeepSeek-V3在如上评测中,性能超过了其他开源模型,并达到了与领先闭源模型相当的性能水平。

网友炸锅了

DeepSeek-V3现在已经在官方平台上直接可以测试,而且代码全部开源可以直接下载。

国外AI发烧友们纷纷开启了测试,有人直接将4/8个M4 Mac mini堆叠在一起来运行DeepSeek-V3了...

c137b153a480b4e3810975e6fdc7c0e4.png

一位开发者惊讶地表示,DeepSeek-V3无需我解释就能如此准确地理解一切,这种感觉真让人毛骨悚然。就好像机器里真的住着一个幽灵似的。

f4b3ad13673dd4afa41a2402f3309e17.png

另有开发者通过DeepSeek-V3创建了一个用AI公司logo制作的小行星游戏,分分钟就完成了。

68c4af72cf9b483ccb1d0efbd880ec97.png

648bfb49d422c3739681f15957df58eb.gif

还有的人对用如此低成本,训练出一个强大得模型,难以置信。

Stability AI前CEO表示,以每秒60个token(相当于人类阅读速度5倍)的速度全天候运行DeepSeek v3,每天仅需要2美元。

那么,你是要选择一杯拿铁咖啡,还是一个AI助手呢?

d643679070c6765e455c8f1fa9f63c3f.png

参考资料:

https://x.com/karpathy/status/1872362712958906460

https://x.com/jiayq/status/1872382450216915186

本文转自新智元
最新 AI 进展报道
请联系:amos@52cv.net

f08cd37bf451d0bd1fd8826271db530b.jpeg

END

欢迎加入「计算机视觉交流群👇备注:CV

75302cfbaefa0ac8523e1dc1ef76ccdb.png

分数阶傅里叶变换(Fractional Fourier Transform, FRFT)是对传统傅里叶变换的拓展,它通过非整数阶的变换方式,能够更有效地处理非线性信号以及涉及时频局部化的问题。在信号处理领域,FRFT尤其适用于分析非平稳信号,例如在雷达、声纳和通信系统中,对线性调频(Linear Frequency Modulation, LFM)信号的分析具有显著优势。LFM信号是一种频率随时间线性变化的信号,因其具有宽频带和良好的时频分辨率,被广泛应用于雷达和通信系统。FRFT能够更精准地捕捉LFM信号的时间和频率信息,相比普通傅里叶变换,其性能更为出色。 MATLAB是一种强大的数值计算和科学计算工具,拥有丰富的函数库和用户友好的界面。在MATLAB中实现FRFT,通常需要编写自定义函数或利用信号处理工具箱中的相关函数。例如,一个名为“frft”的文件可能是用于执行分数阶傅里叶变换的MATLAB脚本或函数,并展示其在信号处理中的应用。FRFT的正确性验证通常通过对比变换前后信号的特性来完成,比如评估信号的重构质量、信噪比等。具体而言,可以通过计算原始信号与经过FRFT处理后的信号之间的相似度,或者对比LFM信号的关键参数(如初始频率、扫频率和持续时间)是否在变换后得到准确恢复。 在MATLAB代码实现中,通常包含以下步骤:首先,生成LFM信号模型,设定其初始频率、扫频率、持续时间和采样率等参数;其次,利用自定义的frft函数对LFM信号进行分数阶傅里叶变换;接着,使用MATLAB的可视化工具(如plot或imagesc)展示原始信号的时域和频域表示,以及FRFT后的结果,以便直观对比;最后,通过计算均方误差、峰值信噪比等指标来评估FRFT的性能。深入理解FRFT的数学原理并结合MATLAB编程技巧,可以实现对LFM信号的有效分析和处理。这个代码示例不展示了理论知识在
### 开源与闭源大语言模型的能力差异及成本对比 #### 技术能力的比较 闭源大语言模型,例如GPT-4,通常具备更高的技术水平和更强大的功能。这是因为闭源模型的研发团队能够投入大量资源用于训练更大的模型规模以及优化算法结构[^1]。相比之下,开源模型虽然在某些特定领域表现出色,但在整体性能上可能稍逊一筹,尤其是在处理复杂任务或多模态输入时[^3]。 然而,随着技术的发展,开源模型正在迅速缩小这一差距。例如,通过采用混合专家(MoE)架构等先进技术,开源模型也逐渐能够在更大范围内捕捉人类语言的细微差别并生成高质量输出[^2]。 --- #### 成本分析 从成本角度来看,开源模型具有显著优势。由于其开放性质,企业和个人可以免费获取基础版本,并在此基础上进行自定义开发或微调,从而大幅降低初始投资和技术门槛。而闭源模型则需要支付高额许可费用或许可权购买费用来获得使用权,这使得中小型企业难以承受。 尽管如此,在实际部署过程中还需考虑其他隐性开支,比如硬件支持、维护更等方面的要求。对于那些追求极致效果的应用场景来说,闭源解决方案可能会带来更好的长期经济效益,因为它们提供了更为稳定的服务质量和持续的技术改进承诺。 --- #### 透明度探讨 关于透明度方面,两者之间存在明显区别。开源项目允许任何人查看代码细节及其内部工作机制,这对于促进学术研究、教育普及以及建立公众信任至关重要。相反,闭源系统的运作方式完全由公司掌控,外界很难了解具体实现方法或者潜在风险因素。这种缺乏可见性的状况有时会引起隐私保护方面的担忧。 不过值得注意的是,部分领先的闭源厂商也开始尝试有限制地公开部分内容,试图缓解上述顾虑的同时保持竞争优势。 ```python # 示例:如何加载一个预训练好的Hugging Face开源模型 from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("bigscience/bloom") model = AutoModelForCausalLM.from_pretrained("bigscience/bloom") text = "Replace me by any text you'd like." inputs = tokenizer(text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值