风雨兼程-CSDN博客

原创 Graph Engine编译全流程 ONNX到OM转换链路

通过深入解析Graph Engine的编译链路，我们不仅理解了ONNX→OM转换的技术本质，更掌握了性能优化和故障排查的实用技能。在实际项目中，我强烈建议：🎯关键洞察不要盲目追求最高优化等级：Level 3优化在某些场景下反而会引入不稳定因素建立编译性能基线：针对不同模型类型建立耗时标准，快速发现异常关注内存使用模式：大模型编译时内存峰值往往是瓶颈所在随着模型复杂度的不断提升，编译技术的深度优化将成为AI部署的核心竞争力。希望本文的经验分享能帮助你在实际工作中少走弯路。

2026-02-07 09:17:08 635

原创 HCCL贡献指南从Issue到PR合并全流程解析

本文以HCCL异构计算通信库的代码贡献为例，详细介绍了从发现问题到PR合并的全流程。重点包括：基于CONTRIBUTING.md规范进行Fork仓库、代码修改、单元测试和提交PR；通过真实案例Issue#782演示如何分析问题、优化算法选择逻辑并添加测试用例；强调规范的提交信息和PR描述撰写；分享应对Reviewer反馈的经验与心态建议。文章还提供性能优化技巧和故障排查指南，帮助开发者在大型AI基础设施项目中高效协作，掌握开源贡献的核心流程与最佳实践。

2026-02-07 09:13:45 407

原创 CANN Runtime性能计数器集成与硬件监控单元交互实战

性能计数器是NPU硬件提供的性能监控单元，能够精确统计各类硬件事件的发生次数，如计算单元利用率、内存带宽、缓存命中率等。本文深入解读CANN Runtime中性能计数器的使能（Enable）、采样（Sampling）、数据读取（Data Reading）三大核心环节的底层驱动调用代码。通过分析ops-nn仓库相关源码，结合实战案例，揭示如何利用这些“硬件之眼”精准定位性能瓶颈，实现从“盲调”到“精调”的跨越。文章包含完整可运行代码、企业级调优技巧和故障排查指南，助你掌握NPU性能分析的核武器。

2026-02-06 23:40:57 663

原创 CANN异步执行引擎回调链与完成通知机制深度剖析

本文深度解析CANN异步执行引擎中回调链与完成通知机制的核心设计。通过剖析回调触发原理、链式调用架构和异常传播机制，揭示高性能异步任务调度的关键技术。文章包含代码实现示例、性能对比数据（大型任务性能提升达65%）及企业级应用案例，展示如何通过智能调度最小化同步等待、最大化硬件利用率。重点探讨了回调批处理、动态优先级调整等优化技巧，并提供了回调链死锁、内存泄漏等常见问题的解决方案。该机制为开发者构建高效异步计算系统提供了重要参考。

2026-02-06 23:31:46 397

原创跨越鸿沟：从Triton到Ascend C，看异构计算编程模型的演进与融合

本文对比分析了GPU编程模型Triton与昇腾NPU编程模型AscendC的核心差异，重点探讨了在AscendC中优化大模型推理的四大关键技术：KVCache增量解码、稀疏矩阵乘法、混合精度计算和多核负载均衡。通过实测数据验证，AscendC的精细化控制能带来4-5倍性能提升，尤其在长序列场景优势显著。文章还提供了完整代码示例和优化实践指南，揭示了从"抽象编程"到"硬件控制"的思维转变，为开发者在异构计算时代的选择提供了重要参考。

2025-12-17 22:36:37 917 1

原创内存的艺术：Ascend C算子开发中的高效内存管理与优化策略

本文系统解析了AscendC算子开发中的内存优化策略，指出80%的算子性能问题源于内存访问而非计算。文章详细介绍了昇腾达芬奇架构的三级内存体系，通过矩阵乘法案例展示了从性能诊断到Bank冲突避免的全链路优化方法。核心内容包括：1) 内存优化的认知升级，强调内存访问比计算更重要；2) 三段式流水线编程模型和双缓冲技术实现；3) 企业级大模型内存优化实践。文章提供5个架构图、性能数据和优化心法，帮助开发者构建高性能AscendC算子。关键建议：优先优化内存访问模式，采用分层优化策略，并充分利用官方工具链进行性能

2025-12-17 22:10:28 1113

原创昇腾CANN从单算子到融合优化实战

本文系统介绍了基于昇腾CANN的算子开发进阶方法，从基础单算子实现到高级融合优化技术。重点解析了达芬奇架构设计、AscendC编程模型、三级流水线原理和算子融合等关键技术，通过Add算子实现和Conv+BiasAdd+ReLU融合案例展示了性能优化效果。实测数据显示，通过Tiling策略、流水线并行等技术可实现3-5倍性能提升，硬件利用率达85%以上。文章提供了完整代码示例、分步实现指南和常见问题解决方案，为企业级AI应用开发提供了从入门到精通的完整路径。最后展望了AscendC未来发展方向，并推荐了官方学

2025-12-14 18:36:29 668

原创固定Shape场景下Ascend C算子Tiling实现详解

本文系统阐述了固定Shape场景下AscendC算子Tiling的实现原理与优化方法。通过编译期确定性计算、硬件资源精确匹配和多核负载均衡等关键技术，实现了接近硬件理论峰值的性能表现。文章详细解析了固定Shape与动态Shape的性能差异（提升30-49%），提供了完整的Add算子实现案例，包含内存对齐、向量化优化等企业级实践。特别介绍了矩阵乘法（效率达92.3%）和视频卷积等典型场景的优化方案，并给出编译期检查、性能分析等调试方法。固定Shape算子在实时推理、边缘计算等确定性场景中展现出显著优势，为高性

2025-12-14 18:32:14 681

原创双核共舞 - MlaProlog中Cube与Vector单元的协同编程艺术

摘要：本文系统解析昇腾NPU中MlaProlog算子的双核协同编程机制，揭示达芬奇架构下Cube与Vector计算单元的高效协作原理。通过硬件架构分析、AscendC编程范式、计算依赖算法及智能流水线编排等核心技术，展示如何实现3-7倍性能提升。包含完整的注意力机制算子实现代码、多模态应用案例及性能优化策略，并提供双核负载均衡、内存带宽优化等典型问题的解决方案，为AI开发者提供从理论到工程实践的完整指南。（149字）

2025-12-11 06:13:02 776

原创计算依赖分析与流水线编排 - MlaProlog计算流程的逆向工程与通用化

本文深入解析昇腾NPU中MlaProlog算子的计算依赖分析与流水线编排技术，提出基于13年异构计算经验的通用化分析框架。通过逆向工程方法揭示其动态依赖解析和硬件感知编排的核心设计，开发了包含完整依赖分析算法、流水线优化策略及CV融合算子应用案例的解决方案。实际测试显示，该框架在昇腾910B平台上使ResNet-50等模型性能提升27-36%，资源利用率提高24-33%。文章还提供了企业级验证案例和高级调试方法，为AI开发者提供从理论到实践的全套NPU优化指南。

2025-12-11 06:04:14 1734

原创算子工程的基石 - Ascend C算子分析理论与方法实战

本文系统阐述昇腾CANN算子开发的核心方法论，重点剖析算子分析的关键环节。通过LayerNorm算子的完整案例，展示从数学定义、计算特征分析到硬件映射的完整流程：1) 通过算术强度分析预判内存墙瓶颈；2) 设计Tiling策略实现数据复用；3) 采用向量化双缓冲等优化技术。测试显示优化版本性能提升3倍，验证了分析驱动设计的有效性。文章还总结了Element-wise、Reduce等算子的优化定式，并指出未来算子工程师需具备算法-硬件协同设计能力。为开发者提供了一套从"代码实现"升级为&q

2025-12-08 06:24:44 895

原创 Ascend C与CUDA Tiling策略对比分析 - 洞察异构计算的设计哲学

本文深入剖析昇腾Ascend C与NVIDIA CUDA在Tiling策略上的根本差异，从硬件架构设计哲学出发，系统对比两者在并行模型、内存层次、流水线实现等方面的技术路线。通过完整的向量加法算子实例和性能分析，揭示专用AI芯片与通用GPU在异构计算设计上的不同取舍，为开发者提供架构选型和优化指导。核心洞察🎯没有绝对优劣：只有最适合特定工作负载的选择🔧通用vs专用：CUDA提供灵活性，Ascend C提供确定性高性能📊开发效率权衡：CUDA需要更多调优，Ascend C提供更可预测的性能🚀融合趋势。

2025-12-05 03:25:52 972

原创使用 Aclnn 接口实现你的第一个自定义算子（以逐元素加法为例）

本文详细介绍了基于Aclnn接口实现逐元素加法算子的全流程开发。通过解析Aclnn调用流程和技术原理，从内核函数实现、接口封装到Pybind集成，构建了完整的算子实现方案。文章提供了开发环境配置、测试验证方法以及企业级优化策略，实测性能较传统实现提升35%。关键内容包括：Aclnn张量抽象、异步执行模型、内存管理优化和PyTorch生态集成，为开发者提供从理论到实践的完整指导。

2025-12-05 03:19:58 1031

原创 AsNumpy 的架构设计与 Ascend C 的底层赋能：从 Python 生态到 NPU 原生的高性能计算革命

AsNumpy 的成功，本质上是 Ascend C 编程模型与昇腾硬件架构深度协同的成功。它通过一套精巧的分层架构，将对开发者的友好度（Numpy API）和底层的执行效率（Ascend C Kernel）做到了极佳的平衡。核心价值：它为 Python 数据科学社区提供了一个“零学习成本” 的 NPU 加速通道，是推动 AI 计算普惠化的关键一环。未来展望：随着 CANN 的全面开源，AsNumpy 的生态将会更加繁荣。更丰富的算子库：覆盖 SciPy 等更多科学计算场景。与 PyData 生态深度集成。

2025-12-04 23:59:33 765

原创 Ascend C算子开发实战：MoeGatingTopK的Tiling设计与性能优化

本文深入解析了混合专家模型(MoE)核心算子MoeGatingTopK在昇腾平台上的性能优化策略。针对动态序列和专家选择的双重挑战，提出了基于Tiling设计的创新解决方案，有效解决了计算不规则和内存访问低效问题。文章从架构设计、核函数实现到性能调优全流程展开，重点介绍了动态Tiling策略、双缓冲技术、向量化优化等关键技术，并通过实验数据展示了优化效果。最终实现相比原始离散算子方案获得数量级的性能提升，为稀疏动态AI计算提供了可借鉴的优化思路。

2025-12-04 23:57:42 729

原创模型迁移全流程实战：从PyTorch到Ascend C的异构加速

本文详细介绍了如何将PyTorch模型迁移到Atlas300I/VPro硬件平台的全流程。文章首先强调了迁移前的准备工作，包括硬件差异分析和模型可行性评估。随后提供了七步迁移法，涵盖环境配置、代码改造、性能调优等关键环节，并通过VisionTransformer的完整示例演示具体实现。针对性能优化，文章重点介绍了算子融合、混合精度训练等核心技术，并给出故障排查指南和企业级案例InternVL3的迁移经验。最后为新手提供了学习路径建议和必备工具清单，同时展望了自动化迁移工具等未来发展方向。全文以实战为导向，旨

2025-12-03 18:45:26 763

原创 Ascend C生态纵览：工具链、社区资源与最佳学习路径

想在昇腾生态里从“小白”变成“老炮”？光会写Ascend C代码，顶多算个“码农”；真正的高手，得是“生态玩家”。这篇文章，我不跟你复读官方文档，我要给你画一张完整的“藏宝图”。第一，是昇腾CANN那套复杂但精密的“生产线”（工具链），从代码怎么变成NPU指令，到性能怎么调，这条线上的每个工具都是你的瑞士军刀。第二，是华为和社区攒下的“资源库”，训练营、认证、开源项目、大佬云集的论坛，这些地方藏着真经，也藏着机会。第三，也是最重要的，是一条被验证过无数次的“打怪升级路径”

2025-12-03 18:29:24 778

原创突破架构差异：实现 Triton 算子从 CUDA 到昇腾 NPU 的高效迁移

本文系统介绍了Triton算子从CUDA到昇腾NPU的跨平台迁移技术，提出包含硬件抽象层适配、内存模型转换和性能优化的完整迁移框架。通过架构差异分析、接口映射转换和计算资源重平衡等关键技术，实现了迁移成本降低70%、性能损失控制在15%以内的优化目标。文章详细阐述了网格配置迁移算法、内存访问优化策略等核心方法，并提供了生产级迁移框架实现和性能对比测试方案。基于13年异构计算经验，总结了典型迁移问题库和验证方法，实际项目数据显示迁移后算子性能保持率达85%以上。该技术显著提升了开发效率，为异构计算场景下的算子

2025-12-02 23:41:24 1278

原创昇腾Ascend C高性能算子优化：突破内存墙与计算墙的深度实践

本文是一份来自一线实战的昇腾CANN算子优化全攻略。我将以多年老兵的视角，直击AI计算两大核心矛盾——内存墙与计算墙，用大白话拆解在Ascend C层面系统化攻克它们的完整方法论。文章将彻底避开空洞理论，聚焦于我们团队在优化MoE、Transformer等大模型关键算子时，那些真正起作用的技术细节、踩过的深坑和提炼出的通用心法。从性能分析定位、数据类型革命、访存优化黑科技到计算流水线重构，我将提供可复现的代码框架和决策流程，帮助你将算子性能提升一个数量级。昇腾官方文档 - CANN开发指南。

2025-12-02 23:11:20 753

原创超越Pow - Ascend C实现复杂算子（如Reduce、MatMul）的策略

本文系统阐述了AscendC复杂算子的实现策略与优化方法，重点分析了Reduce和MatMul算子的性能瓶颈突破。通过多级并行Reduce算法、分块矩阵乘法等技术，实现了算法与硬件的深度协同优化。文章详细展示了从理论到实践的完整技术路径，包括内存访问优化、计算流水线设计等核心方法。实验数据表明，优化后的算子性能显著提升：Reduce算子加速比达16.89倍，MatMul算子计算性能提升至32.8TFLOPS。文章还探讨了动态负载均衡、自适应优化等高级技巧，并提供了大规模推荐系统的企业级优化案例，验证了技术的

2025-12-01 23:53:14 591

原创 Ascend C量化模式详解：Weight静态量化与Activation动态量化在Matmul中的实践

本文深入探讨了在昇腾NPU上实现高效量化矩阵乘法（Matmul）的关键技术与实践方法。文章首先解析了量化的本质，指出量化是计算范式的重构而非简单的数据类型转换，并详细介绍了昇腾NPU的量化硬件优势。随后，文章分别阐述了权重静态量化和激活值动态量化的实现策略，包括逐通道量化、动态范围调整等技术细节。通过完整的量化Matmul算子实现案例，展示了如何利用AscendC达到85%以上的硬件利用率。最后，作者分享了在千亿参数模型部署中总结的七个量化保精度技巧，包括校准数据选择、混合精度策略和溢出保护机制等。文章强调

2025-12-01 23:50:10 918

原创 Ascend C 硬件架构抽象：最大化硬件性能的深度优化实践

本文系统阐述了昇腾AI处理器硬件架构与AscendC编程模型的协同优化方法。通过分析达芬奇架构的三级计算单元（Cube/Vector/Scalar）和存储层次特性，提出基于硬件抽象的编程模型，实现开发效率与性能的平衡。重点展示了矩阵乘法算子的四级优化过程：从基础实现到分块优化、流水线并行、双缓冲技术，最终实现312.4GFLOPS（92%硬件利用率）的性能表现。针对企业级应用场景，详细介绍了动态负载均衡、原子操作优化等高级技术，并提供了大模型注意力机制优化的实践案例。文章还包含性能分析工具使用指南和常见问题

2025-11-30 23:52:08 1032

原创逻辑错误的显微镜：Ascend C 算子实现中的边界与精度问题剖析

本文深入剖析AscendC算子开发中的边界条件处理与计算精度保障两大核心挑战。通过系统分析内存对齐、越界访问等边界问题，以及FP16精度损失、累加误差等数值稳定性问题，提供从原理到实践的完整解决方案。文章包含企业级案例研究，如动态分块矩阵乘法优化和高精度Softmax实现，并展望自动化边界检查、自适应精度选择等前沿方向。开发者可获得边界处理清单和精度优化检查表等实用工具，提升算子健壮性。作为昇腾训练营技术干货，本文为AI加速器开发提供关键方法论指导。

2025-11-30 23:48:12 757

原创【前瞻创想】云原生安全体系演进：从边界防护到内生免疫的变革之路

《云原生安全体系演进与实践》摘要本文系统阐述了云原生安全的技术演进与实践路径。第一章分析从传统边界防护到云原生内生安全的范式转变，指出容器化、微服务等技术驱动因素。第二章详细解析安全架构设计，包括容器安全、服务网格等核心技术，提供零信任策略等代码示例。第三章通过完整代码案例和分步指南，展示基础设施加固、运行时监控等实战方案。第四章基于金融行业案例，分享企业级实践中的性能优化和故障排查经验。第五章展望AI驱动安全、机密计算等未来趋势。全文贯穿75个技术要点，包含12个可运行代码片段，为构建智能、自动化的云原

2025-11-29 12:08:11 1119

原创【探索实战】边缘计算场景落地实践：基于Kurator构建跨云边缘计算平台

《Kurator边缘计算平台实战指南》摘要本文系统阐述了基于Kurator构建企业级边缘计算平台的完整方案。作为云边协同计算解决方案，Kurator深度整合KubeEdge、K3s等生态组件，提供统一管控、边缘自治和智能调度三大核心能力。通过分层架构设计实现控制面与数据面分离，支持毫秒级响应、90%带宽优化和离线自治等边缘场景关键需求。实战部分详细演示了从环境部署、节点接入到应用分发的全流程，并针对网络不稳定等挑战提供了多链路容错方案。实测数据显示，该方案可降低80%运维复杂度，提升70%应用分发效率，已

2025-11-29 11:56:23 803

原创 maven用的阿里镜像，下载jar包总是出错，报错找不到证书，仓库中出现lastupdated文件

遇到的问题（踩坑记录，警示自己）：运行之前项目的时候项目起不来，pom报错sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target，本地仓库查看出现lastupdated文件。...

2020-04-30 17:19:28 958

原创获取jar包的artifactId,groupId,version,并手动将jar包安装到maven本地仓库

开发过程中拿到一个jar，需要在项目中引入maven依赖，但是并不知道它的groupId,artifactId,version，没法加入maven依赖。用jna这个jar包举个例子，用反编译软件打开这个jar包（我用的jd-gui），然后得到maven依赖如下：<dependency> <groupId>com.sun.jna</groupId&gt...

2020-02-23 21:53:50 7213

manong1ge的博客