DeepSeek 最新重磅成果，梁文锋亲自参与！！

最新推荐文章于 2025-02-22 11:30:59 发布

musicml

最新推荐文章于 2025-02-22 11:30:59 发布

阅读量939

点赞数 8

本文链接：https://blog.csdn.net/musicml/article/details/145767754

版权

大家好，我是玄姐。

正文开始之前，先给我自己打个广告，DeepSeek 爆火国之荣耀，为了回馈粉丝们的支持，原价199元的《基于 DeepSeek 打造的 AI Agent 智能体项目实战直播训练营》，直接降价到19元，今天再开放一天报名特权，仅限99名。

回到正题。

这个春节，DeepSeek 实在太火爆了。

在马斯克高调推出依托 20万 GPU 集群的 Grok-3，同时 Sam Altman 在开源策略上犹豫不决之时，DeepSeek 低调地又推出了一项可能颠覆行业的技术。

2月18日，DeepSeek 的首席执行官公布了由梁文锋亲自参与的最新研究成果——原生稀疏注意力（Native Sparse Attention, NSA）机制。这项由DeepSeek 团队研发的创新技术在稀疏注意力领域取得了突破，通过算法的革新和硬件的优化，旨在攻克长文本建模中的计算难题。

根据 DeepSeek 发布的论文（地址：https://arxiv.org/pdf/2502.11089），NSA 技术不仅将大语言模型处理64k长度文本的速度提升了最高11.6倍，而且在通用性能基准测试中超越了传统的全注意力模型。在全球 AI 竞争日益注重“硬核创新”的背景下，这家中国的低调企业展现了技术突破的新范例。

值得一提的是，NSA 技术还未被应用于 DeepSeek V3 模型的训练。这暗示了 DeepSeek 若将 NSA 技术融入模型训练，其基础模型性能有望得到显著增强。论文中明确提到：“经过 NSA 预训练的模型已经超越了全注意力模型。”

与此同时，与 DeepSeek 的路线形成鲜明对照的是，xAI 选择了追求工程规模的极致。2月18日，马斯克发布的 Grok-3 采用了20万 GPU 的集群，而即将推出的 Grok-4 更是计划使用高达百万 GPU、1.2GW 的超级集群。这种不惜成本的策略，展现了北美在 AI 领域一贯的“大力出奇迹”风格。

—1—

稀疏注意力：DeepSeek NSA 的创新之道

"AI 革命"迅猛推进，长文本建模在 AI 领域的地位愈发重要。无论是 OpenAI 的 o-series 模型、DeepSeek 的 R1，还是 Google 的 Gemini 1.5 Pro，都展现了处理超长文本的巨大潜力。

但是，传统的 Attention 机制计算复杂度随着序列长度的增加呈二次方增长，这成为了限制大语言模型（LLM）发展的主要障碍。

稀疏注意力机制被视为克服这一挑战的潜在解决方案。2月18日，DeepSeek 提出的 NSA 机制，是对去年5月 MLA（Multi-Layer Attention）研究的进一步补充。NSA 的精髓在于它将算法的创新与硬件的优化相融合，从而实现了高效的长文本建模。

NSA 的三大创新亮点为：

第一、动态分层稀疏策略：通过粗粒度 Token 压缩与细粒度T oken 选择的结合，既保证了全局上下文的感知，又兼顾了局部信息的精确性。

第二、算术强度平衡设计：针对现代硬件特性进行优化，大幅提高了计算效率。

第三、端到端可训练性：支持端到端的训练模式，减少了预训练的计算需求，同时维持了模型的性能。

—2—

NSA 的核心组件：三位一体，逐层优化

NSA 架构实现了分层 Token 建模，通过三个平行的注意力分支来处理输入序列：

第一、压缩注意力（Compressed Attention）：通过对 Token 块的压缩来捕捉全局信息，专注于粗粒度的模式识别。

第二、选择注意力（Selected Attention）：专注于关键 Token 块，有选择性地保存细粒度的信息。

第三、滑动窗口注意力（Sliding Window Attention）：负责处理局部上下文信息。

这三个分支的输出通过一个门控机制进行整合。为了提升效率，NSA 还特别设计了针对硬件优化的 Kernel。

具体来说，在 Token 压缩阶段，NSA 采用基于 block 粒度的压缩计算，并融入位置信息编码。在选择注意力阶段，它巧妙利用压缩注意力的分数作为 block 的重要性评分，进行 top-N 筛选，以保留关键细粒度信息。滑动窗口部分则专注于处理局部上下文。最终，通过一个门控函数来综合这三种注意力的输出结果。

—3—

实验结果：性能与效率的双重飞跃

依据 DeepSeek 公布的实验结果，NSA 技术在众多领域均展现出非凡的性能。

在一系列通用基准测试、长文本处理任务以及指令推理任务中，采用 NSA 技术预训练的模型不仅性能未减，反而超越了全注意力模型。更为关键的是，在处理高达 64k 字符长度的序列时，NSA 在解码、正向传播以及反向传播等多个环节均实现了明显的速度提升，最快可达到11.6倍的加速，充分证明了 NSA 在模型整个生命周期中各个阶段的高效性。

—4—

马斯克 Grok3：算力堆砌的“极致”

与 DeepSeek 的路线形成鲜明对照的是，Grok3 选择了截然不同的策略：追求工程规模的极限。Grok3 项目投入了 20万 GPU 的庞大集群，而即将问世的 Grok4 更是计划采用百万 GPU、1.2GW 的超级计算集群。这种“不惜成本”的方式，映射了北美在 AI 领域始终如一的“以规模求突破”的作风。

然而，根据信息平权的分析，尽管 Grok3 借助超大规模集群迅速超越了以往的 SOTA 模型，但其成本效益比并不令人满意。与 DeepSeek 的 V3 版本相比，Grok3 以高出50倍的成本仅实现了30%的性能增长。这一数据表明，仅仅在预训练阶段大量投入计算资源，其回报可能并不符合预期，而将资源集中于 RL （强化学习）的后续训练阶段或许更加物有所值。

总之，2025年一定是基于 DeepSeek 的应用爆发之年，其中最重要的应用形态就是 AI Agent 智能体，为了帮助大家快速掌握 AI Agent 智能体技术，我和团队落地大模型项目3年，帮助60多家企业落地近100个项目，根据我们企业级实战的项目经验，打造基于 DeepSeek 的 AI Agent 项目实战直播训练营，截至今天已经报名2万名学员，如此火爆！原价199元，DeepSeek 爆火，为了回馈粉丝的支持，价格直接降到 19元，再开放今天一天的报名权限，仅限99名，抢完立刻恢复到199元。

—5—

AI Agent 智能体为啥如此重要？

第一、这是大势所趋，随着 DeepSeek 春节期间的爆火，我们正在经历一场重大技术变革，还不像当年的互联网的兴起，这是一场颠覆性的变革，掉队就等于淘汰，因为未来所有应用都将被 AI Agent 智能体重写一遍；

第二、现在处于红利期，先入场的同学至少会享受4~5年的红利，拿高薪，并且会掌握技术的主动权和职业选择权。

第三、企业需求旺盛，越来越多的企业已经在 AI Agent 智能体领域进行落地，这为我们提供了丰富的岗位机会和广阔的发展空间。

第四、大厂都在战略布局的方向，不管是国外的微软、谷歌，还是国内的百度等大厂都在战略布局，随着春节期间 DeepSeek 火出圈，2025年必定是 AI Agent 智能体商业化的一年。

我和团队最近两年一直在研究大模型应用技术，我想说：大模型的价值太大了，AI Agent 智能体的潜力太大了！“未来所有应用都会被 AI Agent 智能体重写一遍”！这句话也是今年听到最多的一句话。我和团队这两年，尤其是最近3年已经帮助60多家企业落地了近100个 AI Agent 智能体的项目。我自己贴身感受：越来越多的企业的确都开始落地 AI Agent 智能体项目了。

因此 AI Agent 智能体足够重要，但也足够复杂，我这两年实践结论是，想开发出一个能够可靠稳定的 AI Agent 智能体应用实在太难了，大模型技术本身的复杂度，大模型推理的不确定性，响应速度性能问题等等，这些困难直接导致很多人对其望而却步，或是遇到问题无从下手。一般技术同学想要自己掌握 AI Agent 智能体着实很不容易！

为此我特意打造了一个为期3天的基于 DeepSeek 的 AI Agent 智能体企业实战训练营：这个训练营是我和团队落地大模型项目3年，根据我们企业级实战的项目经验，打造了基于 DeepSeek 的3天 AI Agent 项目实战直播训练营。