【架构解析】深入浅析DeepSeek-V3的技术架构

最新推荐文章于 2025-05-06 20:44:52 发布

m0_74823044

最新推荐文章于 2025-05-06 20:44:52 发布

阅读量4.3k

点赞数 23

文章标签：架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74823044/article/details/145216063

版权

运行这个DeepSeek-V3需要的显存资源，我先去找更大的GPU VM去了…

一、DeepSeek-V3 的架构详解

1. 模型总体概述

DeepSeek-V3 是一款采用 Mixture-of-Experts（MoE）架构的大型语言模型，其核心参数配置如下：

模型层数：61 层
隐藏层维度：7168
前馈网络维度：18432
注意力头数：128
词汇表大小：129280
最大位置嵌入：163840

该模型通过精细的架构设计，实现了在计算效率和性能上的平衡。

2. Mixture-of-Experts（MoE）架构

MoE 设置：

MoE 层频率：1（即每一层都是 MoE 层）
共享专家数：1
路由专家数：256
每个 Token 选择的专家数：8
MoE 专家前馈网络维度：2048

专家数量与分布：
总 MoE 层数：58 层（第 4 层至第 61 层）
每层专家总数：257 个（1 个共享专家 + 256 个路由专家）
模型总专家数：14,906 个（257 个专家 × 58 层）

活跃专家数量：
每层活跃专家：9 个（1 个共享专家 + 8 个路由专家）
整个模型的活跃专家：522 个（9 个活跃专家 × 58 层）

MoE 架构的优势：
计算效率高：每个 Token 只需计算少量专家，降低了计算成本。
参数利用率高：拥有巨大参数容量（总参数量 6,710 亿），但实际计算的激活参数仅约 370 亿。
专家专精化：路由机制使得专家专注于特定特征，提高模型性能。

路由专家与共享专家的结合：
路由专家（Routed Experts）：
选择性激活：按需激活，利用门控机制（如基于亲和度分数的 Top-K 选择）决定哪些专家处理当前 Token。
专精化处理：每个路由专家擅长处理特定类型的输入或特征，实现专精化。
稀疏计算：仅激活部分专家，提高计算效率。
负载均衡：确保不同专家在不同输入上均衡被激活，避免过载。
共享专家（Shared Experts）：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。