由 DeepSeek 联合创始人梁文锋亲自挂名的研究团队,在 arXiv 上发表了一篇题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”的论文,提出了一种全新的注意力机制架构 NSA(Native Sparse Attention,原生稀疏注意力)。
背景
长序列建模对于下一代语言模型至关重要,但传统的注意力机制由于计算复杂度高,面临着显著的计算挑战。稀疏注意力机制被认为是提高效率的有前景的方向。NSA通过动态层次化的稀疏策略,结合粗粒度的令牌压缩和细粒度的令牌选择,既保留了全局上下文感知能力,又保持了局部精度。
熟悉 DeepSeek-R1 的用户都知道,这款模型虽然在许多方面表现出色,但比较遗憾的一点在于,其输入上下文能力方面相对不足。而这次发布的 NSA 架构就主要致力于解决当前大模型长文本处理中的关键瓶颈问题。
NSA的核心创新包括两个方面
硬件对齐的算法优化
通过平衡计算强度的算法设计,实现了显著的加速,并针对现代硬件进行了实现优化。为了最大化利用现代硬件资源,研究团队基于Triton开发了专门的kernel。以下是主要优化点:
- Group-Centric Data Load