【大模型】DeepSeek 的人工智能发展之路

最新推荐文章于 2025-03-27 17:40:56 发布

知识靠谱

最新推荐文章于 2025-03-27 17:40:56 发布

阅读量949

点赞数 18

分类专栏：大模型部署实战及AI工具高效使用文章标签：人工智能搜索引擎 deepseek

本文链接：https://blog.csdn.net/chenghao1012/article/details/145740678

版权

【大模型】DeepSeek 的人工智能发展之路

初出茅庐：成立与奠基（2023 年）

2023 年，在人工智能浪潮席卷全球之际，各大科技公司纷纷布局。幻方量化凭借在量化投资领域积累的技术与数据优势，敏锐捕捉到这一发展趋势。2023 年 4 月，幻方量化发布公告，宣布全力投身人工智能技术领域，并成立新的独立研究公司 —— 深度求索（DeepSeek），为 DeepSeek 的诞生埋下了种子。

[此处插入一张 2023 年科技行业动态相关图片，展示当时人工智能发展浪潮的热度，比如众多科技公司的 AI 发布会场景图]

2023 年 7 月 17 日，DeepSeek 在杭州市拱墅区市场监督管理局登记正式成立。公司由知名量化资管巨头幻方量化创立，法定代表人系裴湉，位于浙江省杭州市拱墅区环城北路 169 号汇金国际大厦西 1 幢 1201 室。尽管刚刚成立，DeepSeek 却有着明确的目标，专注于开发先进的大语言模型（LLM）和相关技术，致力于在人工智能领域崭露头角，开启属于自己的征程。

崭露头角：大模型的初步发布（2024 年）

首个大模型 DeepSeek LLM 发布（2024 年 1 月 5 日）

2024 年 1 月 5 日，DeepSeek 发布了首个包含 670 亿参数的大模型 DeepSeek LLM。该模型从零开始，在一个包含 2 万亿 token 的数据集上进行训练，数据集涵盖中英文。通过在如此大规模且多样化的数据集上训练，DeepSeek LLM 具备了强大的语言理解和生成能力，能够处理各种复杂的自然语言任务，为 DeepSeek 后续模型的优化与改进提供了经验和数据基础，也让 DeepSeek 在大模型领域迈出了坚实的第一步，吸引了业界的目光，为公司树立了初步的技术形象。

[此处插入一张展示 DeepSeek LLM 模型架构或训练数据相关的图片，比如模型架构图或数据集规模示意图表]

开源第二代 MoE 大模型 DeepSeek-V2（2024 年 5 月）

2024 年 5 月，DeepSeek 宣布开源第二代 MoE 大模型 DeepSeek-V2。在性能方面，它表现卓越，可与 GPT-4Turbo 比肩，然而其价格却只有 GPT-4 的仅百分之一，这一巨大的性价比优势，使得 DeepSeek 收获了 “AI 届拼多多” 的名号。该模型采用了创新的模型架构和训练方法，如全新的 MLA（Multi-head Latent Attention）注意力机制和 DeepSeekMoE 前馈网络，大幅降低了计算量和显存占用，确保了高效推理。同时，它支持 128K 的超长上下文，且在 GPU 上的推理吞吐量高达每