- 一、团队背景
Deepseek系列模型是由Deepseek公司(全称:杭州深度求索人工智能基础技术研究有限公司)研发的大语言模型。DeepSeek公司成立于 2023 年 7 ⽉,专注于研究通用人工智能底层模型与技术,挑战人工智能前沿性难题,旨在“打造低成本、⾼性能、全⾯开源的⼤语⾔模型”,试图在⾼昂成本与闭源为主导的国际⼤模型市场中,提供⼀条“平价⼜开源”的替代⽅案。
截⾄ 2025 年初,Deepseek 团队拥有约 139 名正式员⼯,核⼼成员多具有深度学习、分布式系统、GPU 底层优化等专业背景,形成“⼩团队+⾼强度”的研发文化。创始人梁⽂锋本身拥有量化⾦融与⼤数据分析的深厚背景,曾在⾼频交易、机器学习等领域积累了丰富经验,2015年,成立了Deepseek的母公司杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资,2016年幻方量化推出第一个AI模型,实现了所有量化策略的AI化转型。2017年底,几乎所有的量化策略都采用AI模型计算。 2018年,幻方正式确立了以AI为核心的发展战略。
- 二、产品系列
DeepSeek 的产品线⽬前主要分为 V 系列(Deepseek Chat) 与 R 系列(Deepseek Reasoning) 两⼤类。V 系列:主打多领域对话与内容⽣成,偏重通⽤性与⾃然语⾔覆盖⼴度。R 系列:强调推理与思维链,以深度逻辑能⼒⻅⻓。
DeepSeek 在两个系列上不断尝试新的模型架构与训练⽅法,并针对不同应⽤场景做差异化优化,逐步形成了V 系列⾯向通⽤场景、R 系列主打专家级推理的双线发展战略,同时在多模态方向进行了有益的尝试。
表1 Deepseek产品列表
模型名称 |
发布日期 |
发布版本 |
模型简介 |
Deepseek MoE |
2024-01-02 |
Moe-16B-Base Moe-16B-Chat |
具有16.4B参数的混合专家(MoE)语言模型,采用基于细粒度专家分割和共享专家隔离的创新的MoE架构,在2T中英文tokens上从头训练得到,性能与DeekSeek 7B和LLaMA2 7B相当,计算量仅为其40%左右,是Deepseek系列模型的基础模型。 |
Deepseek LLM |
2023-11-29 |
LLM-7B-Base LLM-7B-Chat LLM-67B-Base LLM-67B-Chat |
在包含2T个中英文tokens的庞大数据集上从头开始训练的高级语言模型。 具备推理、编程、数学、中文等领域卓越的通用能力,尤其精通编程、数学和中文理解。 该模型是实质意义上的Deepseek V1,其性能优于GPT3.5,弱于GPT4。 |
Deepseek Coder |
2023-10-20 |
Coder-1.3B-Base Coder-1.3B-Instruct Coder-6.7B-Base Coder-6.7B-Instruct Coder-7B-Base v1.5 Coder-7B-Instruct v1.5 Coder-33B-Base Coder-33B-Instruct |
由一系列代码语言模型组成,每个模型都是在由87%的代码和13%的中英文自然语言组成的2T个tokens上从头开始训练。 每个模型都通过使用16K的窗口大小和额外的填空任务在项目级代码语料库上进行预训练,以支持项目级代码的完成和填充。在多种编程语言和各种基准测试的开源代码模型中取得了先进性能,能力表现接近GPT4. |
Deepseek Math |
2024-02-05 |
Math-7B-Base Math-7B-Instruct Math-7B-RL |
在Deepseek-Coder-v1.5 7B模型初始化条件下,用源于Common Crawl的数学相关tokens和500B的自然语言和编程数据tokens预训练得到。 在不依赖外部工具包和投票技术的情况下,竞赛级MATH基准测试中接近Gemini Ultra和GPT-4的性能水平。 |
Deepseek VL |
2024-03-08 |
VL-1.3B-Base VL-1.3B-Chat VL-7B-Base VL-7B-Chat |
专为现实世界视觉和语言理解设计的开源视觉语言(VL)模型。 具有通用的多模态理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像和复杂场景中的隐含智能,开启了Deepseek在多模态领域的尝试。 |
Deepseek Prover V1.5 |
2024-08-16 |
Prover-V1 Prover-V1.5-Base (7B) Prover-V1.5-SFT (7B) Prover-v1.5-RL (7B) |
Prover是一种专为Lean 4(交互式定理证明器)中的定理证明而设计的开源语言模型。V1.5模型在Deepseek Math Base上经过预训练专门学习形式数学语言,通过监督微调(SFT)和基于证明辅助反馈(RLPAF)的强化学习进一步的细化,并提出了一种变体的蒙特卡洛树搜索方法RMaxTS,用于生成不同证明路径。 Prover-V1.5在高中水平的miniF2F基准和本科生水平的ProofNet基准的测试集上取得先进的结果,远优于GPT-f。 |
Deepseek V2 |
2024-04-22 |