DeepSeek的核心技术探索

DeepSeek-V3核心技术与低成本训练揭秘

最新推荐文章于 2025-06-22 15:21:57 发布

原创

最新推荐文章于 2025-06-22 15:21:57 发布 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

DeepSeek的核心技术探索

关于DeepSeek公司及其大模型

公司介绍

DeepSeek 2023年7月成立于杭州，是幻方量化旗下的子公司，全称是杭州深度求索人工智能基础技术研究有限公司。

“成立时间才一年多”、“最近推出的V3已经能和OpenAI的4o(名称中"o"代表Omni，即全能的意思，凸显了其多功能的特性。)媲美”、“训练成本不到600W美元”、“API定价仅是国内其它头部厂商几十分之一”、“APP已经在中美APP store登上免费应用榜首”；

以上是最近关于DeekSeek的一些新闻热点信息，下面我们从官网看一下：
DeepSeek近半年相继推出了3个主要的大模型版本，分别是DeepSeek V2.5、DeepSeek V3、DeepSeek-R1(全部都使用了MOE架构)。在这之前还推出了DeepSeek-VL、DeepSeek Coder、DeepSeek Math。
在这里插入图片描述

模型能力

DeepSeek模型已经对标国内Qwen(通义大模型)、海外Lanma、GPT 4o，从公布的榜单评测上看：DeepSeek-V3在开源模型中位列榜首，与世界上先进的闭源模型不分伯仲
在这里插入图片描述

成本

推理成本(API报价)：百万Token输入价格能达到1元。
在这里插入图片描述

训练成本：从技术报告中看DeepSeek用的是H800的GPU做的训练，而且只有2千张左右的H800，整个V3的正式训练成本不超过600W美元。
1、预训练阶段，每万亿的Token训练V3使用2048个H800GPU集群，只需要180K 个H800 GPU小时，大概3.7天(180000/2048/24)。
2、整个预训练总耗时2664K GPU小时 (不到2个月)，加上上下文扩展和后训练，总耗时大概2788KGPU耗时。
3、按照H800 每小时2美元租赁，总的训练成本不超过600W美元。
在这里插入图片描述