DevCatLogic-CSDN博客

原创 CANN-ATB采样策略-昇腾NPU上Top-K和Top-P哪个出活更稳

摘要：昇腾NPU上的ATB采样模块实现了Top-K和Top-P策略的NPU原生算子，避免了CPU-NPU数据搬运瓶颈。Top-K采用部分排序两阶段处理，耗时0.03ms；Top-P需完整排序，耗时0.08ms。组合策略Top-K+Top-P仅需0.04ms，比CPU实现快15-50倍。Temperature和重复惩罚功能被融合到算子中。实际应用中，创意场景推荐Top-P，稳定性要求高的场景建议Top-K或组合策略。该方案显著提升大模型推理效率，代码已开源。

2026-05-21 09:21:52 61 1

原创 CANN-ATB-Continuous-Batching-昇腾NPU推理服务吞吐量的核心引擎

摘要昇腾NPU推理服务通过Continuous Batching技术显著提升吞吐量，将NPU利用率从5-10%提升至60%以上。相比Static Batching等待所有请求完成，Continuous Batching允许已完成请求立即释放资源给新请求。ATB的BatchScheduler实现该功能，维护等待队列和运行批次，并支持优先级调度。CANN 8.5引入Chunked Prefill技术，将长prefill任务分块执行，减少对其他请求的阻塞，使P99延迟降低47%。性能测试显示，该技术使吞吐量提升

2026-05-21 09:20:53 137 1

原创 CANN-ops-blas推理场景-昇腾NPU上decode阶段的GEMM怎么扛住低利用率

《昇腾NPU上decode阶段GEMM优化策略》摘要针对昇腾NPU在LLM推理decode阶段GEMM利用率低的问题（仅7%），文章分析了长条形矩阵运算特征并提出优化方案。关键策略包括：1）权重预取实现计算与搬运重叠，提升HBM带宽至90%；2）KV Cache连续读取优化，采用64元素对齐存储；3）多请求打包成batch，使M维从1增至32，利用率提升至65%。实验显示batch=32时吞吐量达26,000 tokens/s，较单请求提升8倍。这些优化已集成至ops-blas库，配合ATB推理服务的co

2026-05-20 18:43:22 309 1

原创 CANN-ATB仓库全景-昇腾NPU大模型推理加速库到底干了什么

摘要：ATB（Ascend Transformer Boost）是华为昇腾NPU生态中的大模型推理加速库，位于CANN架构最上层。它通过图优化（算子融合替换）、KV Cache管理和调度执行三大功能，简化了Llama等大模型在昇腾NPU上的推理部署。ATB采用类似vLLM的PagedAttention思路管理KV Cache，支持Continuous Batching调度，并提供开箱即用的HuggingFace模型支持。其核心模块包括图优化器、KV缓存管理器、批调度器等，适用于Llama、Qwen等主流大模

2026-05-20 18:42:28 162 1

原创 CANN-ops-nn融合MatMul加LayerNorm-昇腾NPU上两个最忙算子怎么省一遍读写

摘要：本文介绍了在昇腾NPU上优化Transformer模型中MatMul和LayerNorm算子的融合技术。通过将这两个高频算子合并为一个操作，减少中间结果的HBM读写次数，可降低17-28%的延迟。具体实现使用torch_npu.npu.fused_linear_act_norm接口，将MatMul、Bias、激活函数和LayerNorm四合一处理，使中间数据在片上缓存流转。测试显示32层模型延迟从121ms降至83ms，吞吐提升46%。该技术与FlashAttention等现有优化互补，适用于FFN层

2026-05-19 22:19:51 291

原创 CANN-ops-transformer遇上graph-autofusion-昇腾NPU算子自动融合的秘密

摘要昇腾NPU通过两种方式优化算子性能：算子内融合（ops-transformer）和算子间融合（graph-autofusion）。前者由开发者手动实现特定算子融合（如Attention内部操作），后者由GE编译器自动识别相邻可融合算子（如Attention与RMSNorm）。两者配合可显著减少kernel数量和HBM读写开销，如在Llama2-7B中使单层Transformer的kernel从11个降至3个。自动融合零成本生效，但存在动态shape、MoE模型等限制场景。最佳实践是结合手动融合与自动融

2026-05-19 22:19:05 310