Aurora star-CSDN博客

原创 pypto：用Python直接写NPU算子，门槛有多低？

pypto是昇腾NPU的Python算子开发工具，通过绑定PTO虚拟指令集，让开发者能用Python直接操作NPU张量，无需学习Ascend C。相比传统C++方案，pypto开发效率提升10倍，但性能降低2-3倍，适合算法原型验证。文章详细介绍了pypto与Ascend C的对比、自定义Softmax实现、与PyTorch互操作及常见问题解决方案。pypto填补了算法研究与生产部署间的工具链空白，为昇腾生态提供了更友好的开发入口。

2026-05-26 18:29:22 327

原创 AIPP硬件预处理：比OpenCV快多少？

计算机视觉训练的预处理流水线，CPU是瓶颈。一张224×224的图，用OpenCV做Resize+Normalize要0.8ms，训练时batch_size=64，预处理就要51ms。而NPU推理只要10ms——CPU预处理比NPU计算还慢5倍。更麻烦的是数据搬运：CPU预处理完，要从内存搬到NPU显存，PCIe带宽32GB/s，64张图约8MB，搬运要0.25ms。虽然单次不多，但每轮训练都要搬，累积起来很可观。

2026-05-26 18:27:51 447

原创 hixl单边通信库：为什么比HCCL快3倍？

摘要：分布式训练中，HCCL采用双边通信（需双方同步），而hixl采用单边通信（无需接收方参与），后者延迟更低、CPU开销更小，实测性能提升3倍。hixl通过Put/Get操作实现参数服务器架构，支持显存直接读写，适用于推荐系统等场景。关键注意事项包括：显存注册、正确使用fence同步，以及跨节点需配置RDMA。hixl在CANN架构中位于HCCL上游，适合大模型训练和低延迟通信需求。

2026-05-26 18:27:20 330

原创 torchtitan-npu：7B大模型在8卡NPU上的分布式训练实录

本文介绍了大模型训练中的通信瓶颈问题及解决方案。针对7B参数模型在多卡训练中的显存和通信问题，提出了基于昇腾NPU优化的FSDP（Fully Sharded Data Parallel）分布式训练框架。FSDP通过参数分片、混合精度和计算通信重叠等技术，将7B模型的单卡显存占用从56GB降至8GB，实现接近线性的7倍加速。文章详细解析了FSDP实现原理，提供了7B模型的训练配置代码，并分享了bucket调优、checkpoint保存等实战经验。测试数据显示，FSDP在8卡昇腾910上可高效训练7B-70B规

2026-05-26 18:26:46 335

原创 TensorFlow模型迁移到昇腾NPU，到底要改多少代码

本文介绍了TensorFlow在昇腾NPU上的适配方案，通过CANN后端替换CUDA实现高效计算。核心优势在于用户只需添加少量NPU设备配置代码，即可让现有TF模型在昇腾硬件上运行，保持API完全兼容。文章通过ResNet-50示例展示了具体实现流程，实测NPU加速比达7-8倍。同时总结了常见问题解决方案，包括版本匹配、动态Shape处理和自定义算子优化。该适配方案位于CANN架构的Framework Adaptor层，为深度学习模型提供了一种便捷的昇腾NPU迁移路径。

2026-05-26 18:26:14 355

原创昇腾CANN的Spack包管理，一行命令装全套开发环境

本文介绍了使用Spack包管理器快速搭建昇腾CANN开发环境的方法。传统手动安装需要处理十几个包的复杂依赖关系，耗时2-5小时。通过cann-spack-package仓库，只需10分钟即可完成全套环境部署：安装Spack、添加CANN包仓库、一键安装CANN Toolkit及相关组件，并自动解决依赖和版本冲突。Spack支持多版本共存、环境隔离和秒级回滚，大幅提升效率。文章还提供了常见问题的解决方案和进阶用法，推荐开发者使用Spack管理CANN环境以获得更好的开发体验。

2026-05-25 18:33:25 516

原创 Triton推理服务接昇腾NPU，GE后端怎么搭？

NVIDIA Triton Inference Server通过GE Backend实现对昇腾NPU的支持，将Triton的调度能力与CANN的GE图执行引擎对接。GE Backend采用三层架构设计：Triton C API接口层负责通信，适配层完成Tensor格式转换，执行层调用CANN Runtime进行推理。部署时需先用ATC工具将ONNX模型转为.om格式，并配置Triton使用GE Backend。该方案使昇腾NPU能够无缝接入Triton生态，实现与GPU类似的推理服务体验，支持动态批处理等高

2026-05-25 18:32:52 406

原创昇腾NPU做材料/化学仿真预测，比传统模拟快100倍

昇腾CANN的mat-chem-sim-pred仓库利用图神经网络(GNN)加速分子性质预测，将传统DFT计算从小时级缩短至秒级，实现100倍加速。该方案通过四个核心环节：分子结构编码（SMILES/XYZ转分子图）、GNN训练（SchNet架构）、推理预测和筛选验证，支持高通量材料筛选。依赖昇腾计算服务层的数学和神经网络算子，该工具可快速预测10万级分子库的性质，显著提升材料研发效率。

2026-05-25 18:32:20 528

原创用昇腾NPU给鸿蒙设备跑推理，全流程实录

《鸿蒙端侧AI推理部署指南》摘要：本文介绍如何通过cann-recipes-harmony-infer仓库将深度学习模型部署到鸿蒙设备。流程包括：1) 将PyTorch模型导出为ONNX格式；2) 使用ATC工具转换为昇腾NPU支持的.om格式；3) 在鸿蒙ArkTS应用中集成模型；4) 实现端侧推理功能。重点解决模型转换与鸿蒙应用对接的关键问题，提供完整的代码示例，相比从零开发可提速48倍。适用于手表、电视等鸿蒙设备的AI功能开发。

2026-05-25 18:31:49 441

原创昇腾NPU的信号处理加速库，跟NumPy的FFT有啥区别？

做信号处理的工程师，大概率每天都在和FFT、滤波、卷积打交道。用NumPy的np.fft或者SciPy的signal模块，跑个1024点FFT只要几毫秒，看起来够快了。但一旦数据量上去了——比如处理1024通道的脑电信号、做雷达信号的实时频谱分析——CPU就扛不住了，跑一晚都算不完。昇腾CANN的信号处理加速库AscendSiPBoost（sip），就是为这个场景准备的。它把信号处理的原语搬到NPU上执行，用达芬奇架构的并行计算能力，把FFT、滤波、卷积这些计算密集型操作加速到CPU的15倍以上。

2026-05-25 18:31:17 506

原创昇腾NPU上的Vector算子子程序，为啥比完整算子快？

本文介绍了昇腾NPU上的Vector算子优化工具atvc（Ascend Vector Template C++ Library）。atvc位于CANN架构第二层，作为AOL算子库中的Vector算子模板子库，通过模板化开发、内存对齐优化和指令调度优化三大核心技术，显著提升Vector算子性能。测试表明，相比手写Vector算子，atvc在内存对齐和指令调度优化上分别带来30%和50%的性能提升。文章详细解析了atvc的模板代码实现，并提供了优化案例，帮助开发者快速上手使用这一高效工具。

2026-05-24 10:57:54 331

原创昇腾NPU上的Vector算子模板库，性能优化案例实录

本文介绍了昇腾NPU上的Vector算子优化工具atvc（Ascend Vector Template C++ Library）。atvc位于CANN架构第二层，作为AOL算子库中的Vector算子模板子库，通过模板化开发、内存对齐优化和指令调度优化三大核心技术，显著提升Vector算子性能。测试表明，相比手写Vector算子，atvc在内存对齐和指令调度优化上分别带来30%和50%的性能提升。文章详细解析了atvc的模板代码实现，并提供了优化案例，帮助开发者快速上手使用这一高效工具。

2026-05-24 10:57:23 347

原创昇腾NPU的虚拟指令集，为啥能让算子性能提升3倍？

这一层是用户打交道的。用IDL（Interface Definition Language）语法写指令定义，pto-isa解析后生成各种代码。IDL语法示例（定义一个Exp// exp.idlinsn Exp {// 输入操作数operand {// 输出操作数operand {// 指令参数param {// 指令语义（伪代码）semantic {关键点insn定义了指令名（Expoperand定义了操作数（in和out，类型是param定义了指令参数（scale，默认值是。

2026-05-24 10:56:52 414

原创 10分钟上手pypto：用Python直接调PTO虚拟指令集

PTO指令要用IDL（Interface Definition Language）定义。定义一个MatMul指令。// 输入input {// 输出output {// 计算逻辑（伪代码）c = a @ b;// 矩阵乘法编译好后，就可以用pypto调用自定义的MatMul指令了。# 加载自定义PTO指令# 初始化PTO上下文# 加载MatMul指令# 准备操作数# 设置操作数# 执行指令# 获取结果print(f"矩阵乘法结果:\n。

2026-05-24 10:56:21 261

原创昇腾NPU上的张量操作库，和PyTorch的张量操作有啥不一样？

你有没有想过一个问题：PyTorch已经有了一套完整的张量操作（torch.cat等），昇腾CANN为啥还要自己搞一套ops-tensor？是重复造轮子，还是真的有必要？第一次接触ops-tensor的时候，也被这个问题困扰过。明明PyTorch的张量操作已经很好用了，为啥还要学一套新的？是昇腾NPU的硬件有特殊要求，还是CANN的架构设计使然？带着这个疑问，翻了一遍ops-tensor的源码，跑了几组对比测试，发现这事儿没那么简单。

2026-05-24 10:55:48 428

原创 hixl：昇腾单边通信库，PD分离推理的隐藏拼图

摘要： hixl是针对PD分离推理优化的单边通信方案，通过RDMA直接跨节点传输KV Cache，实现零拷贝和低延迟。相比传统hccl的AllGather方案，hixl将2GB KV Cache传输延迟从12ms降至1.8ms，CPU占用低于1%，带宽利用率达94%。其核心流程包括HBM内存注册、地址交换和RDMA直接写入，适用于Prefill与Decode节点分离的场景。性能测试显示，PD分离+hixl比传统方案快12%，尤其在大模型长序列场景优势显著。但需注意RDMA网卡依赖和内存注册开销等实施限制。

2026-05-23 16:24:16 332

原创 shmem：昇腾NPU多卡共享内存的底层机

本文介绍了shmem技术在多卡推理中的应用，通过全局地址空间抽象实现类似单卡的编程体验。shmem采用三层架构（接口层、调度层、传输层），支持HCCS/PCIe/RDMA等多种传输方式，相比传统AllGather通信延迟降低500倍以上。文章通过性能对比显示，shmem远端访问延迟为2.3μs（HCCS），带宽200GB/s，适合参数分片场景。同时总结了三个实践坑点：参数均匀分布避免带宽瓶颈、使用barrier保证缓存一致性、注意对称分配特性。该技术显著提升了多卡大模型推理效率。

2026-05-23 16:18:46 336

原创 torchtitan-npu：在Ascend 910上从头预训练Llama-3的完整实录

我所在团队要预训练一个7B参数的语言模型，预算只够买4张Ascend 910B。原来以为昇腾NPU只能跑推理，没想到torchtitan-npu直接支持大模型预训练——4卡跑7B模型，训练速度1470 tokens/s，两周训完100B tokens。这篇文章是完整的踩坑实录，从环境搭建到性能调优，每一步都记录在案。torchtitan-npu是Meta TorchTitan的昇腾NPU适配版，核心改动是把CUDA后端替换成CANN后端，上层PyTorch代码零修改。

2026-05-23 16:15:01 438

原创 ops-blas：昇腾NPU上线性代数算子的性能天花板在哪？

本文探讨了GEMM（通用矩阵乘法）在深度学习中的核心地位及其优化策略。通过将cuBLAS迁移至ops-blas+Ascend 910平台，实现了10^12次矩阵乘法计算从超过24小时缩短到18小时完成，硬件成本降低30%。文章重点分析了ops-blas实现92%理论峰值利用率的三项关键技术：Tiling策略将大矩阵分块计算、双缓冲机制实现计算与数据搬运并行、L0 Cache优化提升数据复用率。性能测试显示，ops-blas在中等规模矩阵运算上优于cuBLAS，特别适用于1024-4096维度的计算场景。同时

2026-05-23 16:13:16 473

原创 ops-cv：昇腾NPU上的视觉算子，跟OpenCV有什么不一样？

去年接了一个工业质检项目，模型用PyTorch写的，预处理用OpenCV跑在CPU上，推理跑在昇腾NPU上。结果预处理比推理还慢——图像缩放+色彩转换+归一化，CPU上跑8ms/张，NPU推理只要3ms/张。整个流水线的瓶颈卡在CPU预处理上，NPU闲着等数据。后来把预处理搬到ops-cv上跑，同样的流水线在NPU上只要0.4ms/张，整体吞吐翻了6倍。这个差距让我重新审视了一个问题：ops-cv到底是什么？它跟OpenCV是什么关系？

2026-05-23 16:11:51 489

原创 asc-devkit：昇腾算子开发调试工具完全指南

本文介绍了使用asc-devkit工具集优化Ascend C算子性能的实用技巧。通过三个核心工具：asc-profile（性能分析）、asc-debug（调试）和asc-bench（基准测试），开发者可以快速定位和解决算子性能问题。文章重点展示了如何利用asc-profile找出tiling参数过大导致的HBM读写瓶颈，并通过自动调优将MatMul算子性能提升43.6%；asc-debug帮助检测越界访问和精度问题；asc-bench则用于与官方算子进行性能对比。这些工具能有效帮助开发者将算子性能优化至官方

2026-05-22 13:17:39 366

原创 GE图引擎架构剖析：怎么做到“代码零修改，性能最大化“

摘要：本文介绍了如何通过GE（Graph Engine）优化PyTorch模型在昇腾NPU上的性能。GE通过将动态图转为静态图，实现算子融合、内存复用和流水线调度，无需修改代码即可显著提升性能。文章详细解析了GE的三层架构（接口兼容层、自动调度层、优化实现层），并提供了ONNX、TorchScript和Python API三种优化方式。实验数据显示，算子融合可使Llama-3-7B模型延迟降低36.9%，内存复用则有效减少显存占用。针对动态控制流模型，推荐使用TorchScript或GE原生API进行优化。

2026-05-22 13:16:56 364

原创 catlass：昇腾算子模板库的设计哲学

算子模板库：提升开发效率与性能的关键摘要：本文探讨了算子开发中的核心痛点——重复编写tiling逻辑、性能不一致和硬件适配问题，并介绍了catlass算子模板库的解决方案。通过将通用tiling逻辑模板化，catlass实现了三大优势：1）避免重复造轮子，将200行手写代码简化为20行模板调用；2）内置自动调优功能，性能提升可达43%；3）自动感知硬件差异，适配不同NPU的内存配置。文章展示了如何通过三层模板体系（基础模板、优化模板、算子模板）和可组合设计，快速构建高效算子，并实现算子融合，显著提升开发效

2026-05-22 13:15:46 421

原创昇腾NPU多机通信实战：从AllReduce到AlltoAll

本文分享了将Llama-2-70B模型从8卡GPU迁移到64卡昇腾NPU集群的实践经验。通过对比PyTorch DDP和hccl通信库的性能表现，发现hccl能将NPU利用率从38%提升至82%，训练吞吐提升2.3倍。文章详细介绍了环境准备要点，包括NPU驱动版本确认、RDMA网卡配置等关键步骤，并重点解析了hccl支持的四种核心通信原语（AllReduce、AllGather、ReduceScatter、AlltoAll）及其适用场景。同时对比了Tree和Mesh两种通信拓扑的优缺点，为大规模分布式训练提

2026-05-22 13:14:53 451

原创 FlashAttention在昇腾NPU上的极致优化：从原理到实践

本文分享了在昇腾NPU上优化Llama-3-70B模型Attention层的实战经验。通过分析FlashAttention的核心思想——减少HBM读写次数，作者采用分块计算和片上内存计算策略，将推理吞吐从18 tokens/s提升至67 tokens/s。文章详细介绍了达芬奇架构的存储层次和计算单元特点，并给出4个关键优化策略：自适应分块参数、流水线并行、内存访问优化和混合精度计算。这些方法使客户部署卡数量从16张降至8张，显著降低了成本。

2026-05-22 13:14:10 415

原创 ops-cv：计算机视觉算子性能深度实

本文介绍了如何通过使用ops-cv优化库显著提升YOLOv8在昇腾NPU上的推理性能。关键优化包括：1）针对CV场景优化的内存访问模式；2）算子融合技术减少HBM读写；3）Winograd算法适配达芬奇架构。实验显示，在工业质检场景中，优化后的YOLOv8-l模型FPS从23提升至41，增幅达78%。文章还分析了ops-cv的适用场景，提供了三种迁移方法（自动替换、手动替换和融合版本），并总结了动态shape、精度差异等常见问题的解决方案。最终方案无需修改训练代码，仅需替换推理实现即可获得显著性能提升。

2026-05-21 21:54:41 378

原创 pto-isa：虚拟指令集架构应用场景实战

摘要：本文介绍了使用PTO-ISA优化Ascend NPU算子性能的经验。通过MatMul算子案例，展示了如何正确匹配PTO-ISA版本（910用v2.0，950DT用v3.0）以获得最佳性能（950DT比910快15%）。详细说明了PTO工具链安装、算子描述编写、编译测试全流程，并对比了PTO-ISA与手写Ascend C的性能差异（PTO开发效率高48倍但性能略低10-20%）。文章还总结了常见问题，如语法错误、指令延迟差异和算子融合等，建议原型开发用PTO-ISA快速验证，性能关键算子再手写优化。

2026-05-21 21:53:32 353

原创 torchair：昇腾PyTorch适配层生态协作深度解读

TorchAir是PyTorch与昇腾NPU之间的适配层，通过算子映射和格式转换实现模型在NPU上的运行。它不修改PyTorch源码，而是拦截算子调用并转换为AscendCL接口。TorchAir的核心能力包括自动算子映射（一对一、多对一融合、自定义算子）、调用GE图引擎优化计算图，以及高效的内存管理（内存复用率可达67%）。使用时只需简单导入并调用优化接口，即可获得性能提升。但需注意动态shape支持不足和自定义算子注册等问题，可通过trace模式或手动优化解决。TorchAir作为PyTorch与Asc

2026-05-21 21:52:51 543

原创 torchtitan-npu：大模型训练框架快速上手实战

本文分享了将Llama-3-70B模型训练从8卡GPU迁移到64卡昇腾NPU集群的实战经验。首先强调正确安装NPU驱动和CANN工具包的重要性，并详细说明了环境配置步骤。接着介绍了如何逐步推进训练任务，从7B模型开始验证流程，重点讲解了数据集准备、配置文件修改和训练启动方法。文章还总结了三个关键性能调优参数（通信拓扑、梯度累积步数和激活重计算）以及训练不稳定的排查清单。最后简要说明了checkpoint的保存和加载方法。这些实践经验可帮助开发者节省至少一周的调试时间。

2026-05-21 21:46:27 580

原创 ascend-transformer-boost：Transformer加速库架构原理剖析

昇腾NPU上的Transformer加速库ATB通过三层架构优化大模型推理性能。相比PyTorch原生实现18 tokens/s的吞吐，ATB可达31 tokens/s，提升72%。其核心优势在于：1）将Transformer层封装为优化算子，减少中间结果读写；2）内置主流模型预优化实现；3）支持INT8/INT4量化。ATB采用"编译器级自动优化"思路，基于昇腾CANN算子库实现，相比NVIDIA手动优化的FasterTransformer更具通用性。测试显示，在Llama-2-7B模型上，ATB的NPU

2026-05-21 21:45:01 392

原创 ops-transformer：FlashAttention算子深度实践

本文介绍了多模态图像预处理的优化方法，重点针对图文对、检测框ROI提取和RGB-D深度图融合三种场景。通过ops-cv工具实现了高效的批量处理：CLIP风格的图文对预处理支持同步处理图像和文本；检测框ROI提取在NPU上实现快速裁剪缩放；深度图处理包含配准、归一化和缺失值填充。性能测试显示，批量处理相比串行方式可提升10倍以上吞吐量。文章还提供了CLIP训练pipeline的代码示例，展示了如何统一处理不同模态数据。这些优化方法显著提升了多模态模型的训练效率。

2026-05-20 21:37:45 356

原创 ge：昇腾CANN图引擎仓库概览

本文探讨了深度学习训练中数据增强的优化策略。针对CPU增强导致的GPU利用率低问题，提出使用CANN ops-cv在线增强算子将增强任务卸载到NPU执行。对比了离线增强和在线增强的优缺点，介绍了随机翻转、裁剪、颜色抖动等常用增强算子及其融合优化方法。通过多进程DataLoader和融合增强策略，将ResNet50训练的GPU利用率从35%提升至92%，每epoch耗时从45分钟缩短至6分钟。文章还讨论了分阶段增强策略和AutoAugment自动增强方法，后者可使ImageNet分类准确率提升1.6%。实验表

2026-05-20 21:36:03 357

原创 catlass：昇腾算子模板库架构原理剖析

帮一个团队做目标检测优化，发现个有趣的现象——模型推理只用了 200ms，但图片预处理花了 150ms。预处理占总时间的 43%，比模型本身还慢。后来换成 CANN ops-cv 仓库的图像算子，预处理降到 30ms，总时间直接砍掉一半。这篇文章记录图像预处理优化的全过程——为什么原生 PyTorch 效率低，ops-cv 怎么做到的，以及三行代码怎么接进去。

2026-05-20 21:33:26 355

原创 cann-recipes-infer：大模型推理配方应用场景实战

本文揭示了目标检测中图像预处理耗时占比高的现象，并提出基于CANN ops-cv的优化方案。原生PyTorch预处理存在串行执行和数据搬运问题，导致43%时间消耗在预处理环节。ops-cv通过算子融合、零拷贝和批量处理等优化手段，将预处理时间从150ms降至30ms，总耗时减少一半。文章详细分析了Resize、Crop、Normalize等操作的优化原理，并给出三行代码即可接入的实践方案。实测显示优化后吞吐量提升4.5倍，为实时检测和离线推理场景提供了具体建议。

2026-05-20 21:28:39 737

原创 hixl：昇腾单边通信库生态协作解读

FlashAttention通过分块计算、在线Softmax和KV压缩融合三大优化，在昇腾NPU上显著提升Attention计算效率。它将标准Attention的三次显存搬运缩减为一次，针对NPU架构优化分块大小（如128×128），并支持INT8/INT4压缩KV Cache。实测LLaMA-70B模型吞吐提升210%，延迟降低53%。用户仅需替换三行代码即可接入PyTorch或MindSpore框架，CANN 8.5版本进一步优化了推理场景的显存占用和动态序列支持。建议开发者检查Attention占比和

2026-05-20 16:02:23 770

空空如也

空空如也