自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 CANN-ATB采样策略-昇腾NPU上Top-K和Top-P哪个出活更稳

摘要:昇腾NPU上的ATB采样模块实现了Top-K和Top-P策略的NPU原生算子,避免了CPU-NPU数据搬运瓶颈。Top-K采用部分排序两阶段处理,耗时0.03ms;Top-P需完整排序,耗时0.08ms。组合策略Top-K+Top-P仅需0.04ms,比CPU实现快15-50倍。Temperature和重复惩罚功能被融合到算子中。实际应用中,创意场景推荐Top-P,稳定性要求高的场景建议Top-K或组合策略。该方案显著提升大模型推理效率,代码已开源。

2026-05-21 09:21:52 61 1

原创 CANN-ATB-Continuous-Batching-昇腾NPU推理服务吞吐量的核心引擎

摘要 昇腾NPU推理服务通过Continuous Batching技术显著提升吞吐量,将NPU利用率从5-10%提升至60%以上。相比Static Batching等待所有请求完成,Continuous Batching允许已完成请求立即释放资源给新请求。ATB的BatchScheduler实现该功能,维护等待队列和运行批次,并支持优先级调度。CANN 8.5引入Chunked Prefill技术,将长prefill任务分块执行,减少对其他请求的阻塞,使P99延迟降低47%。性能测试显示,该技术使吞吐量提升

2026-05-21 09:20:53 137 1

原创 CANN-ops-blas推理场景-昇腾NPU上decode阶段的GEMM怎么扛住低利用率

《昇腾NPU上decode阶段GEMM优化策略》摘要 针对昇腾NPU在LLM推理decode阶段GEMM利用率低的问题(仅7%),文章分析了长条形矩阵运算特征并提出优化方案。关键策略包括:1)权重预取实现计算与搬运重叠,提升HBM带宽至90%;2)KV Cache连续读取优化,采用64元素对齐存储;3)多请求打包成batch,使M维从1增至32,利用率提升至65%。实验显示batch=32时吞吐量达26,000 tokens/s,较单请求提升8倍。这些优化已集成至ops-blas库,配合ATB推理服务的co

2026-05-20 18:43:22 309 1

原创 CANN-ATB仓库全景-昇腾NPU大模型推理加速库到底干了什么

摘要:ATB(Ascend Transformer Boost)是华为昇腾NPU生态中的大模型推理加速库,位于CANN架构最上层。它通过图优化(算子融合替换)、KV Cache管理和调度执行三大功能,简化了Llama等大模型在昇腾NPU上的推理部署。ATB采用类似vLLM的PagedAttention思路管理KV Cache,支持Continuous Batching调度,并提供开箱即用的HuggingFace模型支持。其核心模块包括图优化器、KV缓存管理器、批调度器等,适用于Llama、Qwen等主流大模

2026-05-20 18:42:28 162 1

原创 CANN-ops-nn融合MatMul加LayerNorm-昇腾NPU上两个最忙算子怎么省一遍读写

摘要:本文介绍了在昇腾NPU上优化Transformer模型中MatMul和LayerNorm算子的融合技术。通过将这两个高频算子合并为一个操作,减少中间结果的HBM读写次数,可降低17-28%的延迟。具体实现使用torch_npu.npu.fused_linear_act_norm接口,将MatMul、Bias、激活函数和LayerNorm四合一处理,使中间数据在片上缓存流转。测试显示32层模型延迟从121ms降至83ms,吞吐提升46%。该技术与FlashAttention等现有优化互补,适用于FFN层

2026-05-19 22:19:51 291

原创 CANN-ops-transformer遇上graph-autofusion-昇腾NPU算子自动融合的秘密

摘要 昇腾NPU通过两种方式优化算子性能:算子内融合(ops-transformer)和算子间融合(graph-autofusion)。前者由开发者手动实现特定算子融合(如Attention内部操作),后者由GE编译器自动识别相邻可融合算子(如Attention与RMSNorm)。两者配合可显著减少kernel数量和HBM读写开销,如在Llama2-7B中使单层Transformer的kernel从11个降至3个。自动融合零成本生效,但存在动态shape、MoE模型等限制场景。最佳实践是结合手动融合与自动融

2026-05-19 22:19:05 310

原创 CANN未来发展趋势与技术展望

CANN作为华为自研的AI计算架构,正在持续演进以应对大模型、多模态、边缘智能等新兴挑战。超大模型支持:万亿参数模型的高效训练与推理多模态融合:文本、图像、语音等多模态联合优化端云协同:边缘与云端的协同计算与资源调度自动化优化:模型自动优化与部署工具链新兴应用:科学计算、生成式AI等新领域的加速CANN将继续与硬件深度协同,提供更强大的AI计算能力,推动AI技术在更多领域的创新应用。硬件软件协同设计自动化优化工具链多模态融合技术端云协同架构新兴应用场景支持。

2026-02-07 00:11:11 393

原创 CANN未来发展趋势与技术展望

CANN作为华为自研的AI计算架构,正在持续演进以应对大模型、多模态、边缘智能等新兴挑战。超大模型支持:万亿参数模型的高效训练与推理多模态融合:文本、图像、语音等多模态联合优化端云协同:边缘与云端的协同计算与资源调度自动化优化:模型自动优化与部署工具链新兴应用:科学计算、生成式AI等新领域的加速CANN将继续与硬件深度协同,提供更强大的AI计算能力,推动AI技术在更多领域的创新应用。硬件软件协同设计自动化优化工具链多模态融合技术端云协同架构新兴应用场景支持。

2026-02-07 00:09:39 386

原创 CANN环境搭建与配置指南

CANN环境搭建是开发昇腾AI应用的第一步,正确的环境配置可以避免很多后续问题。本文详细介绍了从驱动安装到CANN工具链配置的完整流程,以及常见问题的排查方法。搭建好环境后,开发者可以使用MindStudio进行高效的AI应用开发,充分发挥昇腾AI处理器的性能优势。

2026-02-06 21:15:14 603

原创 CANN架构原理深度解析

CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。CANN作为昇腾AI处理器的核心软件架构,通过分层设计、硬件优化和丰富的编程接口,为AI应用开发提供了强大的支持。开发者可以根据自身需求选择合适的开发方式,充分发挥昇腾AI处理器的性能优势。

2026-02-06 21:14:44 629

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除