深度求索推出DeepSeek-V2:经济高效的多专家语言模型

AI苏妲己

深度求索发布了DeepSeek-V2混合专家(MoE)语言模型,每百万tokens,2元人民币价格,简直便宜到令人发指(而且不是活动价格噢),可以说是继Groq以后,AI领域最惊艳的新闻了。那让我们来探究一下深度求索都做了哪些技术上的创新。

一、DeepSeek-V2基本情况

DeepSeek-V2依然是Transformer架构,包含2360亿个总参数,其中210亿个参数处于激活状态,支持128K的上下文长度。与其上一代模型DeepSeek 67B相比,DeepSeek-V2实现了显著更强的性能,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,并将最大生成吞吐量提升至5.76倍。使用了8.1万亿个tokens的高质量、多源的语料库上进行预训练,通过收集150万个对话会话,涵盖了数学、代码、写作、推理、安全等多个领域,对DeepSeek-V2 Chat(SFT)进行监督微调(SFT)。采用组相对策略优化(GRPO)来进一步使模型与人类偏好对齐并产生DeepSeek-V2 Chat,即使只有210亿个激活参数,仍然在开源模型中达到了顶尖性能。

在《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》这篇论文中,深度求索提出了两个创新点,多头部潜在注意力(MLA)和DeepSeekMoE。传统的Transformer架构中的多头部注意力(MHA)的键值(KV)缓存对LLMs的推理效率构成了重大障碍,虽然有了分组查询注意力(GQA)和多查询注意力(MQA),但是这些方法在试图减少KV缓存时往往牺牲了性能。为此深度求索提出了多头部潜在注意力(MLA),利用低秩键值联合压缩方法,在推理过程中显著减少了KV缓存,从而提高了推理效率。架构方面,DeepSeekMoE架构采用细粒度的专家分割和共享专家隔离,以实现更高的专家专业化潜力,与传统的MoE架构如GShard相比,能够以经济的成本训练强大的模型。

为了讲清楚论文中的多头部潜在注意力,先说说注意力机制是什么,这可以说是Transformer架构

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灿烂李

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值