- 博客(16)
- 收藏
- 关注
原创 全面解析DeepSeek算法细节(1) —— 混合专家(Mixture of Expert, MoE)
DeepSeek系列模型算法细节剖析之混合专家(MoE)
2025-02-26 23:29:26
2772
原创 DeepSeek发布新的注意力机制NSA(论文详解)
长上下文建模对于下一代语言模型至关重要,然而标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力为在保持模型能力的同时提高效率提供了一个有前景的方向。我们提出了原生可训练稀疏注意力机制(NSA),它将算法创新与硬件适配优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒度token压缩与细粒度token选择相结合,既保留了全局上下文感知,又保证了局部精度。我们的方法通过两项关键创新推进了稀疏注意力设计:
2025-02-19 22:24:08
2639
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人