DeepSeek的核心技术探索

DeepSeek-V3核心技术与低成本训练揭秘

关于DeepSeek公司及其大模型

公司介绍

DeepSeek 2023年7月成立于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能基础技术研究有限公司。

“成立时间才一年多”、“最近推出的V3已经能和OpenAI的4o(名称中"o"代表Omni,即全能的意思,凸显了其多功能的特性。)媲美”、“训练成本不到600W美元”、“API定价仅是国内其它头部厂商几十分之一”、“APP已经在中美APP store登上免费应用榜首”;

以上是最近关于DeekSeek的一些新闻热点信息,下面我们从官网看一下:
DeepSeek近半年相继推出了3个主要的大模型版本,分别是DeepSeek V2.5、DeepSeek V3、DeepSeek-R1(全部都使用了MOE架构)。在这之前还推出了DeepSeek-VL、DeepSeek Coder、DeepSeek Math。
在这里插入图片描述

模型能力

DeepSeek模型已经对标国内Qwen(通义大模型)、海外Lanma、GPT 4o,从公布的榜单评测上看:DeepSeek-V3在开源模型中位列榜首,与世界上先进的闭源模型不分伯仲
在这里插入图片描述
在这里插入图片描述

成本

推理成本(API报价):百万Token输入价格能达到1元。
在这里插入图片描述
在这里插入图片描述
训练成本:从技术报告中看DeepSeek用的是H800的GPU做的训练,而且只有2千张左右的H800,整个V3的正式训练成本不超过600W美元。
1、预训练阶段,每万亿的Token训练V3使用2048个H800GPU集群,只需要180K 个H800 GPU小时,大概3.7天(180000/2048/24)。
2、整个预训练总耗时2664K GPU小时 (不到2个月),加上 上下文扩展和后训练,总耗时大概2788KGPU耗时。
3、按照H800 每小时2美元租赁,总的训练成本不超过600W美元。
在这里插入图片描述

这么低的推理和训练成本不由引出以下的问题:

  • 模型采用了什么样的网络架构?
  • 训练的精度、框架和并行策略是怎样的?
  • 模型的部署和优化方案是怎样的?
  • 在硬件层的计算和通信上做了什么优化?

DeepSeek训推核心技术

DeepSeek-V3模型网络架构

DeepSeek-V3整体预训练用了14.8万亿的高质量Token,并且在后期做了SFT和RL,模型参数量达到671B,但是每个Token仅激活37B参数。为了做到高效的推理和训练,DeepSeek-V3自研了MLA注意力机制和无辅助损失负载均衡策略的MOE架构。

从技术报告中看出,是经典的Transformer架构,毕竟亮眼的就是前馈网络使用的DeepSeekMoE架构、Attention机制使用MLA架构,其实这两个在DeepSeek-V2模型已经被验证使用过。

与DeepSeek-V2相比,DeepSeek-V3额外引入了一种无辅助损失的负载均衡策略

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值