
DeepSeek
文章平均质量分 90
DeepSeek 是由深度求索(DeepSeek)开发的一系列大语言模型,具备超大规模参数量,支持多语言理解和生成。其核心优势包括高效推理、代码写作能力及多模态任务支持,适用于自然语言处理、数据分析、智能问答等场景。模型基于大量互联网文本训练,具备强上下文理解能力,且提供开源版本,便于开发者定制和优
MrJson-架构师
这个作者很懒,什么都没留下…
展开
-
DeepSeek海豚本地部署保姆级教程
DeepSeek可以在网页端使用,但是有些时候可能不是很稳定,除了网页端,也能通过本地部署来使用。下面就一起来看看吧本地部署方法1. 在加速界面工具栏选择【一键本地部署】2. 选择适合您本地情况的相关内容进行安装3. 安装完成会自动打开对话框4. 此时我们可以直接在终端下提问,DeepSeek-R1会在终端下回答。原创 2025-03-06 20:43:40 · 515 阅读 · 0 评论 -
DeepSeek开源Day5:3FS&smallpond技术详解
3FS 的设计初衷是为 DeepSeek 的 AI 基础设施(如 Fire-Flyer AI-HPC)和模型(如 DeepSeek-V3、R1)提供底层存储 + 数据支持。3FS 涵盖训练数据预处理、数据集加载、检查点保存与重载、嵌入向量搜索以及推理过程中的 KVCache(键值缓存)查找等环节。3FS 显然是 DeepSeek 高效训练体系的关键组件,进一步体现了 DeepSeek 的硬件基因。原创 2025-03-06 20:34:12 · 1397 阅读 · 0 评论 -
DeepSeek开源Day4:DualPipe&EPLB技术详解
DualPipe 的设计目标是最大化集群设备的计算性能,通过在前向传播(Forward)和后向传播(Backward)阶段实现计算与通信的完全重叠,显著减少传统流水线并行中的 “气泡”(Pipeline Bubble,即空闲等待时间)。这种方法在保持计算通信比例恒定的情况下,即使模型规模进一步扩大,也能维持接近零的通信开销。为保证 MoE 部分不同专家之间的负载均衡,会将共享专家和高负载的细粒度专家在集群的不同 GPU 做多个复制,让 GPU 把更多的热数据(发给共享专家的)跑起来。原创 2025-03-06 20:31:26 · 1481 阅读 · 0 评论 -
DeepSeek开源Day3:DeepGEMM技术详解
包含测试脚本,如 test_intranode.py(节点内测试)、test_internode.py(节点间测试)和 test_low_latency.py(低延迟测试),以及 utils.py(工具函数)。1)在调度过程中,(a)IB 发送、(b)IB 到 NVLink 转发、(c) NVLink 接收由相应的 warp 处理。2)在合并过程中,(1) NVLink 发送、(2)NVLink 到 IB 的转发和累积、(3)IB 接收和累积也由动态调整的 warp 处理。原创 2025-03-06 20:30:22 · 1006 阅读 · 0 评论 -
DeepSeek开源Day2:DeepEP技术详解
包含测试脚本,如 test_intranode.py(节点内测试)、test_internode.py(节点间测试)和 test_low_latency.py(低延迟测试),以及 utils.py(工具函数)。1)在调度过程中,(a)IB 发送、(b)IB 到 NVLink 转发、(c) NVLink 接收由相应的 warp 处理。2)在合并过程中,(1) NVLink 发送、(2)NVLink 到 IB 的转发和累积、(3)IB 接收和累积也由动态调整的 warp 处理。原创 2025-03-06 20:28:45 · 1769 阅读 · 0 评论 -
DeepSeek开源Day1:FlashMLA技术详解
FlashMLA 是由 depseek-ai (深度求索)开发的一个开源项目,针对Hopper 架构GPU(例如 H100 或 H800)的高效的 MLA 推断(Inference)解码内核,旨在加速 MLA 机制的计算,特别适用于 DeepSeek 系列模型(如 DeepSeek-V2、V3 和 R1)。DeepSeek V3/R1 介绍(来源:中存算半导体)其中 MLA 是 DeekSeek 研发的多头潜注意力()机制。原创 2025-03-06 20:26:02 · 1173 阅读 · 0 评论