自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

算法熔炉的博客

关注人工智能前沿技术，算法，论文，应用

原创大模型具体是如何推理生成的？

详细解读大模型推理输出的全过程

2025-06-03 09:30:00 825

原创近期热点论文精选速览

近期大模型领域热点论文精选速览

2025-06-02 17:31:52 792

原创 Qwen3技术报告详解

Qwen3技术报告详解

2025-05-15 09:15:00 1110

原创大模型扫盲之常见的KV cache 优化算法

常见的kv cache优化算法讲解

2025-05-13 13:51:29 736

原创全面解析DeepSeek算法细节(3) —— Multi-head Latent Attention (MLA)

MLA详解

2025-05-08 14:20:07 1220

原创全面解析DeepSeek算法细节(2) —— 多令牌预测（Multi Token Prediction）

详解MTP

2025-04-28 22:41:22 1223

原创近期热点论文精选速览

近期大模型领域热点论文精选

2025-04-27 09:45:00 1190

原创大模型扫盲之推理性能指标全面详解

大模型推理性能指标（计算操作字节比，计算算术强度，瓶颈分析，推理时间/内存计算）详解

2025-04-25 15:37:23 1529

原创大模型扫盲之推理时显存占用计算

快速计算大模型推理时所需显存

2025-04-19 14:59:39 463

原创大模型扫盲之推理大模型(Reasoning LLMs)

多图详解推理模型

2025-04-16 11:22:16 851

原创近期热点论文精选速览

近期大模型领域热点论文精选速览

2025-03-30 21:35:36 896

原创全面解析DeepSeek算法细节(1) —— 混合专家(Mixture of Expert, MoE)

DeepSeek系列模型算法细节剖析之混合专家(MoE)

2025-02-26 23:29:26 2772

原创近期热点论文精选速览

2.17-2.23大模型领域热点论文精选速览

2025-02-24 00:15:00 2558

原创 DeepSeek-R1论文详解

DeepSeek-R1论文详细解读

2025-02-21 08:15:00 1206

原创近期热点论文精选速览

快速掌握近期发布的热点论文主要内容以及创新点

2025-02-20 21:57:56 1003

原创 DeepSeek发布新的注意力机制NSA(论文详解)

长上下文建模对于下一代语言模型至关重要，然而标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力为在保持模型能力的同时提高效率提供了一个有前景的方向。我们提出了原生可训练稀疏注意力机制（NSA），它将算法创新与硬件适配优化相结合，以实现高效的长上下文建模。NSA采用动态分层稀疏策略，将粗粒度token压缩与细粒度token选择相结合，既保留了全局上下文感知，又保证了局部精度。我们的方法通过两项关键创新推进了稀疏注意力设计：

2025-02-19 22:24:08 2639

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除