刚刚！DeepSeek重大发布~

自动驾驶之心

于 2025-02-19 12:22:26 发布

阅读量200

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247654808&idx=1&sn=1091de170b592c51a3859bfa0a9d9b1a&chksm=cf4f871e144dd9f6bb62f0384df6d53eb2dfe9a69cc70213c038252f19ff918378dbc115e0f1&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

『自动驾驶之心知识星球』是聚焦于自动驾驶、具身智能、多模态大模型等最前沿的技术交流社区，星球每日分享行业动态、前沿技术、企业招聘等一手信息，欢迎加入！

DeepSeek发布最新的 Attention 算子论文：Native Sparse Attention（NSA），梁文锋挂名，与北大合作发布论文，解码提速11.6倍！

论文链接: https://arxiv.org/abs/2502.11089

效果非常不错，主要有以下几个方面：

模型性能：优于常规 Full Attention
训练速度：64k序列下，前向传播加速9倍，反向传播加速6倍。
解码速度：内存访问量减少至全注意力的1/11.6，64k序列解码速度提升11.6倍。

关键优化主要有三个：

动态层次稀疏策略，NSA通过三种并行注意力路径处理输入序列：

压缩路径（Compression）：将连续令牌块聚合为粗粒度表示，捕获全局语义；
选择路径（Selection）：基于重要性评分（利用压缩路径的中间注意力得分）动态保留关键令牌块，确保细粒度精度；
滑动窗口（Sliding Window）：维护局部上下文，避免局部模式主导全局学习。

硬件对齐优化

块状内存访问：连续块处理适配GPU的Tensor Core和内存带宽，提升计算吞吐；
共享KV缓存：在GQA架构下，组内共享稀疏KV块索引，减少冗余内存访问；
专用内核设计：基于Triton实现高效前向/后向传播，支持FlashAttention级别的加速。

端到端可训练性

所有操作（包括重要性评分和门控）均为可微分的，支持梯度反向传播，以往的稀疏注意力都会有一些不可微分的结构，比如哈希计算等。
避免了离散操作（如聚类、哈希），确保稀疏模式通过训练动态优化。

本文内容均出自『自动驾驶之心知识星球』，欢迎加入交流，这里已经汇聚了近4000名自动驾驶从业人员，每日分享前沿技术、行业动态、岗位招聘、大佬直播等一手资料！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。