深度求索推出DeepSeek-V2：经济高效的多专家语言模型

最新推荐文章于 2025-02-24 11:54:17 发布

灿烂李

最新推荐文章于 2025-02-24 11:54:17 发布

阅读量3.3k

点赞数 8

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/ermu114/article/details/138794194

版权

AI苏妲己

深度求索发布了DeepSeek-V2混合专家（MoE）语言模型，每百万tokens，2元人民币价格，简直便宜到令人发指（而且不是活动价格噢），可以说是继Groq以后，AI领域最惊艳的新闻了。那让我们来探究一下深度求索都做了哪些技术上的创新。

一、DeepSeek-V2基本情况

DeepSeek-V2依然是Transformer架构，包含2360亿个总参数，其中210亿个参数处于激活状态，支持128K的上下文长度。与其上一代模型DeepSeek 67B相比，DeepSeek-V2实现了显著更强的性能，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，并将最大生成吞吐量提升至5.76倍。使用了8.1万亿个tokens的高质量、多源的语料库上进行预训练，通过收集150万个对话会话，涵盖了数学、代码、写作、推理、安全等多个领域，对DeepSeek-V2 Chat（SFT）进行监督微调（SFT）。采用组相对策略优化（GRPO）来进一步使模型与人类偏好对齐并产生DeepSeek-V2 Chat，即使只有210亿个激活参数，仍然在开源模型中达到了顶尖性能。

在《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》这篇论文中，深度求索提出了两个创新点，多头部潜在注意力（MLA）和DeepSeekMoE。传统的Transformer架构中的多头部注意力（MHA）的键值（KV）缓存对LLMs的推理效率构成了重大障碍，虽然有了分组查询注意力（GQA）和多查询注意力（MQA），但是这些方法在试图减少KV缓存时往往牺牲了性能。为此深度求索提出了多头部潜在注意力（MLA），利用低秩键值联合压缩方法，在推理过程中显著减少了KV缓存，从而提高了推理效率。架构方面，DeepSeekMoE架构采用细粒度的专家分割和共享专家隔离，以实现更高的专家专业化潜力，与传统的MoE架构如GShard相比，能够以经济的成本训练强大的模型。

为了讲清楚论文中的多头部潜在注意力，先说说注意力机制是什么，这可以说是Transformer架构