DeepSeek的成功,让我们看到了一条新的AI技术的可持续发展路径。通过优化训练和推理策略,在降低成本的同时,提升了模型的性能和效率。这种可持续发展的理念,不仅有助于AI技术的普及和应用,也为未来的AGI通用人工智能的实现提供了坚实的基础。可以断言DeepSeek出圈之后,AI技术将更加注重经济性,AI行业更注重可持续性。如何在有限的资源下实现最大的技术突破,将是每个AI从业者需要思考的问题。
DeepSeek是啥?
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。
2024年底,DeepSeek发布了新一代大语言模型V3(DeepSeek-V3的GitHub地址),同时宣布开源。测试结果显示,它的多项评测成绩超越了一些主流开源模型,并且还具有成本优势。
随后,在本月世界经济论坛2025年年会开幕当天,中国深度求索公司发布其最新开源模型R1(DeepSeek-R1的GitHub地址),再次引发全球人工智能领域关注。据该公司介绍,R1模型在技术上实现了重要突破——用纯深度学习的方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩美国开放人工智能研究中心(OpenAI)的o1模型正式版,该模型同时延续了该公司高性价比的优势。据了解,深度求索公司R1模型训练成本仅为560万美元
,远远低于美国开放人工智能研究中心、谷歌、“元”公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。
DeepSeek&&ChatGPT 对比
DeepSeek的优势
- 成本优势:训练成本第,如DeepSeek基座模型完整训练一次仅需550万美元,调用接口成本也只有GPT相关接口的几十分之一
- 中文处理能力强:对中文语法、成语、文化背景理解更深入,在中文文本生成、摘要、情感分析等任务中表现自然,中文准确率可达92.5%
- 本地化适配好:符合中国法律法规和内容审核要求,对国内金融、教育、政务等本地行业需求适配性更高
- 开源优势:Deep Seek-R1模型权重和技术报告开源,便于开发者二次开发和创新
Deep Seek的劣势
- 多语言支持有限:非中文场景下表现可能较弱,国际化适用性受限
- 复杂推理较弱:处理数学、代码生成和跨领域知识融合时,可能不如GPT精确
- 生态系统待完善:开发者社区和第三方应用集成尚在发展初期,工具链不如GPT完善
DeepSeek大模型的版本及关系
去年12月26日以来,DeepSeek开源了一系列大模型,涵盖自然语言处理、多模态处理、代码生成、数学推理等多个领域,令人眼花缭乱。接下来,梳理一下DeepSeek开源模型的版本及关系。
通用语言大模型
1 DeepSeek-V3-Base
DeepSeek-V3-Base是深度求索公司开发的第三代基座模型,具备通用场景下的高级语言理解和生成能力,支持128K上下文窗口。该模型在主流评测中表现优异,尤其在中文、数学、代码、指令跟随等方面表现突出。它支持多轮对话、创意写作、逻辑推理、角色扮演等多种任务,适用于搜索增强、知识问答、数据分析等场景。
这是从零开始预训练的模型。它采用MLA(Multi-Layer Attention)和DeepSeekMoE架构,预训练阶段使用了14.8万亿个高质量、多样化的token进行训练。引入多token预测(MTP),训练策略采用辅助损失免费的负载平衡策略,首次在大规模模型上验证了FP8混合精度训练框架的有效性,通过多种并行策略显著提高训练效率。
2 DeepSeek-V3
基于DeepSeek-V3-Base,通过后训练阶段优化。采用监督微调(SFT),使用150万条指令数据涵盖多个领域;强化学习(RL)方面,采用规则基础和基于模型的奖励模型,通过GRPO优化。通过从DeepSeek-R1系列模型中蒸馏推理能力,显著提升推理任务表现。
现在网页版本的对话大模型就是DeepSeek-V3
3 DeepSeek-R1-Zero
基于DeepSeek-V3-Base,直接应用强化学习(RL)训练,无需依赖监督微调(SFT)。采用GRPO算法,奖励建模由准确性和格式奖励组成,设计了简单模板要求模型先产生推理过程再提供答案。
4 DeepSeek-R1
基于DeepSeek-V3-Base,通过多阶段训练和冷启动数据优化。收集数千条长推理链(CoT)数据进行微调,强化学习类似DeepSeek-R1-Zero但使用冷启动数据起点,拒绝采样和监督微调结合其他领域数据再训练,全场景强化学习进一步对齐人类偏好。
5 蒸馏模型
从DeepSeek-R1模型中蒸馏推理能力得到能力增强。包括Qwen和Llama等。如
- DeepSeek-R1-Distill-Qwen-1.5B
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Qwen-70B
- DeepSeek-R1-Distill-Llama-8B
多模态模型
1 Janus-1.3B
作为早期版本,验证了视觉编码解耦的有效性,但在数据规模和模型规模上存在限制,导致其在某些任务上的表现不如后续版本。
2 JanusFlow
核心架构将自回归语言模型(LLM)与修正流(Rectified Flow)相结合,形成统一多模态框架。图像理解任务使用SigLIP作为视觉编码器,图像生成任务使用ConvNeXt块作为生成编码器。这种解耦设计有助于避免任务间的冲突,提升模型在多模态理解与生成任务中的表现。
3 Janus-Pro
同样采用解耦视觉编码方式,使用SigLIP作为理解任务的视觉编码器,生成任务使用VQ tokenizer将图像转换为离散ID。其核心架构是自回归Transformer,但进行了优化和扩展。
代码生成与理解
1 DeepSeek-Coder V1系列
包含基础模型和指令微调版本。基础版本模型从零开始训练,使用2万亿token的数据集,支持16K上下文窗口,通过填空任务增强项目级代码补全能力。指令微调版本基于基础模型通过指令数据微调。
2 DeepSeek-Coder V2系列
在V1基础上扩展,增加更多训练数据(额外6万亿token),支持更多编程语言(从86种扩展到338种),上下文长度从16K扩展到128K。
数学推理
1 DeepSeek-Math-7B-Base
DeepSeek-Math系列专注于数学推理。DeepSeek-Math-7B-Base基于DeepSeek-Coder-Base-v1.5 7B初始化,在DeepSeekMath语料库上预训练。
2 DeepSeek-Math-7B-Instruct
DeepSeek-Math-7B-Instruct在DeepSeek-Math-7B-Base基础上通过数学指令调整增加思维链、程序链和工具集成推理能力。
3 DeepSeek-Math-7B-RL
DeepSeek-Math-7B-RL在DeepSeek-Math-7B-Instruct基础上通过强化学习(RL)优化,使用组相对策略优化(GRPO)减少内存占用。
混合专家模型(MOE)
DeepSeekMoE 16B拥有164亿参数,采用创新MoE架构,包含细粒度专家分割和共享专家隔离两项策略。从零开始训练,使用2万亿个中英文token。出于研究目的,DeepSeek发布DeepSeekMoE 16B Base和DeepSeekMoE 16B Chat模型检查点,可在单块40GB内存GPU上部署,无需量化。
MOE专用微调模型(ESFT)
ESFT即Expert-Specialized Fine-Tuning,针对采用专家混合架构(MoE)的LLMs研究PEFT方法。ESFT核心思想是只微调与下游任务最相关的专家,冻结其他专家和模块参数。ESFT方法包括ESFT-Gate(基于平均门控分数选择专家)和ESFT-Token(基于令牌选择比率选择专家)。这些模型分别对应意图识别、数学、翻译、摘要、代码、法律等下游任务。
- ESFT-Gate
- ESFT-gate-intent-lite
- ESFT-gate-math-lite
- ESFT-gate-translation-lite
- ESFT-gate-summary-lite
- ESFT-token-code-lite
- ESFT-token-law-lite
- ESFT-Token
- ESFT-token-intent-lite
- ESFT-token-math-lite
- ESFT-token-translation-lite
- ESFT-token-summary-lite
- ESFT-token-code-lite
- ESFT-token-law-lite
基于llama架构的模型
DeepSeek开源了传统的基于LLaMA架构训练的模型,供研究使用:deepseek-moe-16b-base和deepseek-moe-16b-chat。
总结与思考
DeepSeek的技术创新
从公开的论文上来看,Deepseek的创新主要体现在工程上的极致优化,尤其是在做大规模训练上的工程优化。比如:
对混合专家模型(MOE)进行深度优化
传统 MOE 存在通信成本高和负载不均衡等问题,而 Deepseek 通过增加专家数量、减小专家规模,尽量少用张量并行(TP)模式,有效降低通信资源消耗;同时,设计独特的负载均衡策略,从宏观和微观层面确保每个专家都能得到有效训练,提升模型性能。
Token生成的优化
传统模型训练通常一个Token一个Token地进行,视野受限。MTP技术引入多Token预测模块,使模型能同时预测多个Token,扩大了模型视野,加快收敛速度,在推理过程中显著提升了推理速度。
数据处理和精度优化
它是开源社区内首个使用 F8 混合精度训练的模型,采用 E4M3 格式,领先于英伟达。这种技术通过降低数据精度,减少了显存占用和通信成本,同时提高了训练速度,在保证计算精度的前提下实现高效训练。
多机多卡的优化
DeepSeek采用O to O通信方式,通过分组路由控制通信和计算的比例为1:1,避免通信和计算互相耽误,充分利用资源。同时引入 Device Limit Routine 技术,选择得分最高的 M 个设备进行计算,减少设备间的通信成本。在某些功能里,DeepSeek甚至绕开了NVidia的CUDA的限制而直接采用汇编式PTX(并行线程执行)来提高效率。
推理技术优化
采用 Prefill 和 Decode 分离的架构,将推理过程分为计算密集型和访存密集型。Prefill 阶段负责计算所有 token 的特征,Decode 阶段负责生成 token,使得 Prefill 阶段可以并行处理,提高了推理效率。另外,MLA(多抽头潜在注意力)技术功不可没。该技术通过多抽头注意力机制结合旋转位置编码,有效解决了显存占用过大的问题,显著压缩和优化了缓存数据。
训练模式的创新
Deepseek 提出三阶段训练法,先通过海量数据进行预训练,提升模型基础理解能力;再进行长文本训练,逐步拓展序列长度;最后通过强化学习、蒸馏等技术补足短板。这种系统性训练方法,配合其自研的高效训练框架,大幅降低训练成本。
Deepseek的成功启发及其影响
DeepSeek的成功让外界意识到中国在AI领域的实力。此前外界认为中国在AI领域落后美国两年,但DeepSeek的出现表明实际差距在3到9个月,甚至在某些方面中国更强。这种技术突破可能会引发国际AI竞争格局的重新调整。
伟大的成功,从来就不是一两个因素促成的。Deepseek的成功对整个AI行业的一次深刻启示与影响
极致的工程优化
DeepSeek的成功并非依赖于单一的算法创新,而是通过将现有技术做到极致:从软件到硬件、从数据到模型架构、从训练到推理,进行全方位改良和优化。这种优化工作需要大量一线工程师的细致操作,而非单纯依赖个别的天才式的创新。例如,DeepSeek V3在训练过程中采用了多种策略来优化训练效率,如负载均衡策略、动态调整机制和混合精度训练等等。这些创新需要彼此呼应和配合,在这方面幻方团队展现出了无以伦比的强大的工程规划能力与协作能力。
对资源的高效利用
由于中国难以获取顶尖显卡,DeepSeek只能使用H800,但其通过算法策略与通信策略的协同,实现了网络带宽的最优利用。这种对有限资源的高效利用,为其他资源受限的AI企业提供了宝贵经验。
以往大模型训练高度依赖高端 GPU,英伟达凭借其在 GPU 领域的优势占据重要地位。Deepseek 证明了在算力受限情况下,通过技术优化也能训练出高性能模型,这降低了行业对特定硬件的依赖,为更多企业参与大模型研发提供可能。一些受限于算力的企业,不再因缺乏高端硬件而被拒之门外,能够利用 Deepseek 的技术思路,探索适合自身的 AI 发展道路。
Deepseek 的出现改变投资风向。投资者开始关注那些注重技术创新、能够有效利用有限资源的企业,对 AI 项目的投资更加理性。投资方向从单纯追求算力和规模,转向注重技术实力和创新能力。那些在模型优化、算法创新等方面有突出表现的企业,更容易获得投资青睐。
DeepSeek的开源策略对以OpenAI为代表的闭源商业模式产生了巨大的冲击。DeepSeek不仅成本低廉,而且还开源。这将促使闭源模型企业重新审视自身策略,思考如何在保持技术优势的同时,应对开源社区的竞争。部分闭源模型企业可能会加大研发投入,提升技术壁垒;也可能调整开源策略,适当开放部分技术,吸引更多开发者参与。从长期来看,AI的竞争才刚刚开始。
AI方向与创新团队
AI技术有很多发展方向和途径,哪一条走得通、有效果,需要领导者有着对AI的深刻理解和敏锐的感觉。
创始人兼CEO梁文锋是一个做量化交易的起家,一个相信”一定可以对股票价格进行建模“的人,有着深厚技术背景的人,自然对AI技术有着异乎常人直觉。领导者的这种良好的技术直觉,使得DeepSeek在技术上保持着前瞻性。比如:它是国内第一个复现MoE(Mixture of Experts)、o1等技术的团队。
DeepSeek的团队由国内高校毕业的聪明年轻人组成,没有海外留学背景。DeepSeek对人才的选择主要是热爱、好奇心和扎实的基础。DeepSeek的团队文化就是:创新要尽可能少的干预和管理,让每个人都有自由发挥的空间和试错的机会,创新不是安排来的,更不是教出来的。
DeepSeek的出现引发了对现有AI技术路径的重新思考。其在低成本、高效率方面的成功,使得其他AI企业不得不重新审视自身的技术路线和资源投入。如MOE架构、F8混合精度训练等,为行业提供了新的技术方向。
比如:Facebook 母公司 Meta 成立了四个专门研究小组来研究 DeepSeek 的工作原理,并基于此来改进旗下大模型 Llama。其中两个小组正在试图了解如何降低训练和运行 DeepSeek 的成本;第三个研究小组则正在研究DeepSeek 可能使用了哪些数据来训练其模型;第四个小组正在考虑基于 DeepSeek 模型属性重构 Meta 模型的新技术。