刚刚!DeepSeek重大发布~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

『自动驾驶之心知识星球』是聚焦于自动驾驶、具身智能、多模态大模型等最前沿的技术交流社区,星球每日分享行业动态、前沿技术、企业招聘等一手信息,欢迎加入!

DeepSeek发布最新的 Attention 算子论文:Native Sparse Attention(NSA),梁文锋挂名,与北大合作发布论文,解码提速11.6倍!

论文链接: https://arxiv.org/abs/2502.11089

效果非常不错,主要有以下几个方面:

  • 模型性能:优于常规 Full Attention

  • 训练速度:64k序列下,前向传播加速9倍,反向传播加速6倍。

  • 解码速度:内存访问量减少至全注意力的1/11.6,64k序列解码速度提升11.6倍。

关键优化主要有三个:

  1. 动态层次稀疏策略,NSA通过三种并行注意力路径处理输入序列:

  • 压缩路径(Compression):将连续令牌块聚合为粗粒度表示,捕获全局语义;

  • 选择路径(Selection):基于重要性评分(利用压缩路径的中间注意力得分)动态保留关键令牌块,确保细粒度精度;

  • 滑动窗口(Sliding Window):维护局部上下文,避免局部模式主导全局学习。

  1. 硬件对齐优化

  • 块状内存访问:连续块处理适配GPU的Tensor Core和内存带宽,提升计算吞吐;

  • 共享KV缓存:在GQA架构下,组内共享稀疏KV块索引,减少冗余内存访问;

  • 专用内核设计:基于Triton实现高效前向/后向传播,支持FlashAttention级别的加速。

  1. 端到端可训练性

  • 所有操作(包括重要性评分和门控)均为可微分的,支持梯度反向传播,以往的稀疏注意力都会有一些不可微分的结构,比如哈希计算等。

  • 避免了离散操作(如聚类、哈希),确保稀疏模式通过训练动态优化。

本文内容均出自『自动驾驶之心知识星球』,欢迎加入交流,这里已经汇聚了近4000名自动驾驶从业人员,每日分享前沿技术、行业动态、岗位招聘、大佬直播等一手资料!

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值