【大模型】DeepSeek 的人工智能发展之路
初出茅庐:成立与奠基(2023 年)
2023 年,在人工智能浪潮席卷全球之际,各大科技公司纷纷布局。幻方量化凭借在量化投资领域积累的技术与数据优势,敏锐捕捉到这一发展趋势。2023 年 4 月,幻方量化发布公告,宣布全力投身人工智能技术领域,并成立新的独立研究公司 —— 深度求索(DeepSeek),为 DeepSeek 的诞生埋下了种子。
2023 年 7 月 17 日,DeepSeek 在杭州市拱墅区市场监督管理局登记正式成立。公司由知名量化资管巨头幻方量化创立,法定代表人系裴湉,位于浙江省杭州市拱墅区环城北路 169 号汇金国际大厦西 1 幢 1201 室。尽管刚刚成立,DeepSeek 却有着明确的目标,专注于开发先进的大语言模型(LLM)和相关技术,致力于在人工智能领域崭露头角,开启属于自己的征程。
崭露头角:大模型的初步发布(2024 年)
首个大模型 DeepSeek LLM 发布(2024 年 1 月 5 日)
2024 年 1 月 5 日,DeepSeek 发布了首个包含 670 亿参数的大模型 DeepSeek LLM。该模型从零开始,在一个包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文。通过在如此大规模且多样化的数据集上训练,DeepSeek LLM 具备了强大的语言理解和生成能力,能够处理各种复杂的自然语言任务,为 DeepSeek 后续模型的优化与改进提供了经验和数据基础,也让 DeepSeek 在大模型领域迈出了坚实的第一步,吸引了业界的目光,为公司树立了初步的技术形象。
开源第二代 MoE 大模型 DeepSeek-V2(2024 年 5 月)
2024 年 5 月,DeepSeek 宣布开源第二代 MoE 大模型 DeepSeek-V2。在性能方面,它表现卓越,可与 GPT-4Turbo 比肩,然而其价格却只有 GPT-4 的仅百分之一,这一巨大的性价比优势,使得 DeepSeek 收获了 “AI 届拼多多” 的名号。该模型采用了创新的模型架构和训练方法,如全新的 MLA(Multi-head Latent Attention)注意力机制和 DeepSeekMoE 前馈网络,大幅降低了计算量和显存占用,确保了高效推理。同时,它支持 128K 的超长上下文,且在 GPU 上的推理吞吐量高达每