DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,于 2023 年 7 月 17 日在杭州诞生,背后的创立者是知名量化资管巨头幻方量化 。幻方量化在金融领域的深厚积累,为 DeepSeek 提供了强大的资金与技术支持,使其从诞生之初就站在了巨人的肩膀上。
成立之初,DeepSeek 就将目光聚焦于大语言模型(LLM)的研发。2024 年 1 月 5 日,DeepSeek 发布首个大模型 DeepSeek LLM,包含 670 亿参数,在 2 万亿 token 的数据集上进行训练,涵盖中英文,初露锋芒。此后,DeepSeek 不断迭代创新,2024 年 5 月,第二代 MoE 大模型 DeepSeek-V2 开源,以其比肩 GPT-4Turbo 的性能和仅为 GPT-4 百分之一的价格,收获了 “AI 届拼多多” 的名号,在市场上掀起波澜。同年 12 月,DeepSeek-V3 首个版本上线并开源,进一步巩固了其在 AI 领域的地位。进入 2025 年,1 月 20 日发布的 DeepSeek-R1 模型更是大放异彩,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,引发全球关注,APP 在短短时间内登顶全球多个国家的应用下载榜榜首,日活用户迅速突破千万大关,成为 AI 领域的一匹黑马。
DeepSeek 模型的技术亮点众多,首先是其独特的 MoE(混合专家模型)架构。从 V2 开始,DeepSeek 将专家数