自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 Graph Engine编译全流程 ONNX到OM转换链路

通过深入解析Graph Engine的编译链路,我们不仅理解了ONNX→OM转换的技术本质,更掌握了性能优化和故障排查的实用技能。在实际项目中,我强烈建议:🎯关键洞察不要盲目追求最高优化等级:Level 3优化在某些场景下反而会引入不稳定因素建立编译性能基线:针对不同模型类型建立耗时标准,快速发现异常关注内存使用模式:大模型编译时内存峰值往往是瓶颈所在随着模型复杂度的不断提升,编译技术的深度优化将成为AI部署的核心竞争力。希望本文的经验分享能帮助你在实际工作中少走弯路。

2026-02-07 09:17:08 635

原创 HCCL贡献指南 从Issue到PR合并全流程解析

本文以HCCL异构计算通信库的代码贡献为例,详细介绍了从发现问题到PR合并的全流程。重点包括:基于CONTRIBUTING.md规范进行Fork仓库、代码修改、单元测试和提交PR;通过真实案例Issue#782演示如何分析问题、优化算法选择逻辑并添加测试用例;强调规范的提交信息和PR描述撰写;分享应对Reviewer反馈的经验与心态建议。文章还提供性能优化技巧和故障排查指南,帮助开发者在大型AI基础设施项目中高效协作,掌握开源贡献的核心流程与最佳实践。

2026-02-07 09:13:45 407

原创 CANN Runtime性能计数器集成与硬件监控单元交互实战

性能计数器是NPU硬件提供的性能监控单元,能够精确统计各类硬件事件的发生次数,如计算单元利用率、内存带宽、缓存命中率等。本文深入解读CANN Runtime中性能计数器的使能(Enable)、采样(Sampling)、数据读取(Data Reading)​ 三大核心环节的底层驱动调用代码。通过分析ops-nn仓库相关源码,结合实战案例,揭示如何利用这些“硬件之眼”精准定位性能瓶颈,实现从“盲调”到“精调”的跨越。文章包含完整可运行代码、企业级调优技巧和故障排查指南,助你掌握NPU性能分析的核武器。

2026-02-06 23:40:57 663

原创 CANN异步执行引擎回调链与完成通知机制深度剖析

本文深度解析CANN异步执行引擎中回调链与完成通知机制的核心设计。通过剖析回调触发原理、链式调用架构和异常传播机制,揭示高性能异步任务调度的关键技术。文章包含代码实现示例、性能对比数据(大型任务性能提升达65%)及企业级应用案例,展示如何通过智能调度最小化同步等待、最大化硬件利用率。重点探讨了回调批处理、动态优先级调整等优化技巧,并提供了回调链死锁、内存泄漏等常见问题的解决方案。该机制为开发者构建高效异步计算系统提供了重要参考。

2026-02-06 23:31:46 397

原创 跨越鸿沟:从Triton到Ascend C,看异构计算编程模型的演进与融合

本文对比分析了GPU编程模型Triton与昇腾NPU编程模型AscendC的核心差异,重点探讨了在AscendC中优化大模型推理的四大关键技术:KVCache增量解码、稀疏矩阵乘法、混合精度计算和多核负载均衡。通过实测数据验证,AscendC的精细化控制能带来4-5倍性能提升,尤其在长序列场景优势显著。文章还提供了完整代码示例和优化实践指南,揭示了从"抽象编程"到"硬件控制"的思维转变,为开发者在异构计算时代的选择提供了重要参考。

2025-12-17 22:36:37 917 1

原创 内存的艺术:Ascend C算子开发中的高效内存管理与优化策略

本文系统解析了AscendC算子开发中的内存优化策略,指出80%的算子性能问题源于内存访问而非计算。文章详细介绍了昇腾达芬奇架构的三级内存体系,通过矩阵乘法案例展示了从性能诊断到Bank冲突避免的全链路优化方法。核心内容包括:1) 内存优化的认知升级,强调内存访问比计算更重要;2) 三段式流水线编程模型和双缓冲技术实现;3) 企业级大模型内存优化实践。文章提供5个架构图、性能数据和优化心法,帮助开发者构建高性能AscendC算子。关键建议:优先优化内存访问模式,采用分层优化策略,并充分利用官方工具链进行性能

2025-12-17 22:10:28 1113

原创 昇腾CANN从单算子到融合优化实战

本文系统介绍了基于昇腾CANN的算子开发进阶方法,从基础单算子实现到高级融合优化技术。重点解析了达芬奇架构设计、AscendC编程模型、三级流水线原理和算子融合等关键技术,通过Add算子实现和Conv+BiasAdd+ReLU融合案例展示了性能优化效果。实测数据显示,通过Tiling策略、流水线并行等技术可实现3-5倍性能提升,硬件利用率达85%以上。文章提供了完整代码示例、分步实现指南和常见问题解决方案,为企业级AI应用开发提供了从入门到精通的完整路径。最后展望了AscendC未来发展方向,并推荐了官方学

2025-12-14 18:36:29 668

原创 固定Shape场景下Ascend C算子Tiling实现详解

本文系统阐述了固定Shape场景下AscendC算子Tiling的实现原理与优化方法。通过编译期确定性计算、硬件资源精确匹配和多核负载均衡等关键技术,实现了接近硬件理论峰值的性能表现。文章详细解析了固定Shape与动态Shape的性能差异(提升30-49%),提供了完整的Add算子实现案例,包含内存对齐、向量化优化等企业级实践。特别介绍了矩阵乘法(效率达92.3%)和视频卷积等典型场景的优化方案,并给出编译期检查、性能分析等调试方法。固定Shape算子在实时推理、边缘计算等确定性场景中展现出显著优势,为高性

2025-12-14 18:32:14 681

原创 双核共舞 - MlaProlog中Cube与Vector单元的协同编程艺术

摘要:本文系统解析昇腾NPU中MlaProlog算子的双核协同编程机制,揭示达芬奇架构下Cube与Vector计算单元的高效协作原理。通过硬件架构分析、AscendC编程范式、计算依赖算法及智能流水线编排等核心技术,展示如何实现3-7倍性能提升。包含完整的注意力机制算子实现代码、多模态应用案例及性能优化策略,并提供双核负载均衡、内存带宽优化等典型问题的解决方案,为AI开发者提供从理论到工程实践的完整指南。(149字)

2025-12-11 06:13:02 776

原创 计算依赖分析与流水线编排 - MlaProlog计算流程的逆向工程与通用化

本文深入解析昇腾NPU中MlaProlog算子的计算依赖分析与流水线编排技术,提出基于13年异构计算经验的通用化分析框架。通过逆向工程方法揭示其动态依赖解析和硬件感知编排的核心设计,开发了包含完整依赖分析算法、流水线优化策略及CV融合算子应用案例的解决方案。实际测试显示,该框架在昇腾910B平台上使ResNet-50等模型性能提升27-36%,资源利用率提高24-33%。文章还提供了企业级验证案例和高级调试方法,为AI开发者提供从理论到实践的全套NPU优化指南。

2025-12-11 06:04:14 1734

原创 算子工程的基石 - Ascend C算子分析理论与方法实战

本文系统阐述昇腾CANN算子开发的核心方法论,重点剖析算子分析的关键环节。通过LayerNorm算子的完整案例,展示从数学定义、计算特征分析到硬件映射的完整流程:1) 通过算术强度分析预判内存墙瓶颈;2) 设计Tiling策略实现数据复用;3) 采用向量化双缓冲等优化技术。测试显示优化版本性能提升3倍,验证了分析驱动设计的有效性。文章还总结了Element-wise、Reduce等算子的优化定式,并指出未来算子工程师需具备算法-硬件协同设计能力。为开发者提供了一套从"代码实现"升级为&q

2025-12-08 06:24:44 895

原创 Ascend C与CUDA Tiling策略对比分析 - 洞察异构计算的设计哲学

本文深入剖析昇腾Ascend C与NVIDIA CUDA在Tiling策略上的根本差异,从硬件架构设计哲学出发,系统对比两者在并行模型、内存层次、流水线实现等方面的技术路线。通过完整的向量加法算子实例和性能分析,揭示专用AI芯片与通用GPU在异构计算设计上的不同取舍,为开发者提供架构选型和优化指导。核心洞察🎯没有绝对优劣:只有最适合特定工作负载的选择🔧通用vs专用:CUDA提供灵活性,Ascend C提供确定性高性能📊开发效率权衡:CUDA需要更多调优,Ascend C提供更可预测的性能🚀融合趋势。

2025-12-05 03:25:52 972

原创 使用 Aclnn 接口实现你的第一个自定义算子(以逐元素加法为例)

本文详细介绍了基于Aclnn接口实现逐元素加法算子的全流程开发。通过解析Aclnn调用流程和技术原理,从内核函数实现、接口封装到Pybind集成,构建了完整的算子实现方案。文章提供了开发环境配置、测试验证方法以及企业级优化策略,实测性能较传统实现提升35%。关键内容包括:Aclnn张量抽象、异步执行模型、内存管理优化和PyTorch生态集成,为开发者提供从理论到实践的完整指导。

2025-12-05 03:19:58 1031

原创 AsNumpy 的架构设计与 Ascend C 的底层赋能:从 Python 生态到 NPU 原生的高性能计算革命

AsNumpy 的成功,本质上是 Ascend C 编程模型与昇腾硬件架构深度协同的成功。它通过一套精巧的分层架构,将对开发者的友好度(Numpy API)和底层的执行效率(Ascend C Kernel)做到了极佳的平衡。核心价值:它为 Python 数据科学社区提供了一个“零学习成本”​ 的 NPU 加速通道,是推动 AI 计算普惠化的关键一环。未来展望:随着 CANN 的全面开源,AsNumpy 的生态将会更加繁荣。更丰富的算子库:覆盖 SciPy 等更多科学计算场景。与 PyData 生态深度集成。

2025-12-04 23:59:33 765

原创 Ascend C算子开发实战:MoeGatingTopK的Tiling设计与性能优化

本文深入解析了混合专家模型(MoE)核心算子MoeGatingTopK在昇腾平台上的性能优化策略。针对动态序列和专家选择的双重挑战,提出了基于Tiling设计的创新解决方案,有效解决了计算不规则和内存访问低效问题。文章从架构设计、核函数实现到性能调优全流程展开,重点介绍了动态Tiling策略、双缓冲技术、向量化优化等关键技术,并通过实验数据展示了优化效果。最终实现相比原始离散算子方案获得数量级的性能提升,为稀疏动态AI计算提供了可借鉴的优化思路。

2025-12-04 23:57:42 729

原创 模型迁移全流程实战:从PyTorch到Ascend C的异构加速

本文详细介绍了如何将PyTorch模型迁移到Atlas300I/VPro硬件平台的全流程。文章首先强调了迁移前的准备工作,包括硬件差异分析和模型可行性评估。随后提供了七步迁移法,涵盖环境配置、代码改造、性能调优等关键环节,并通过VisionTransformer的完整示例演示具体实现。针对性能优化,文章重点介绍了算子融合、混合精度训练等核心技术,并给出故障排查指南和企业级案例InternVL3的迁移经验。最后为新手提供了学习路径建议和必备工具清单,同时展望了自动化迁移工具等未来发展方向。全文以实战为导向,旨

2025-12-03 18:45:26 763

原创 Ascend C生态纵览:工具链、社区资源与最佳学习路径

想在昇腾生态里从“小白”变成“老炮”?光会写Ascend C代码,顶多算个“码农”;真正的高手,得是“生态玩家”。这篇文章,我不跟你复读官方文档,我要给你画一张完整的“藏宝图”。第一,是昇腾CANN那套复杂但精密的“生产线”(工具链),从代码怎么变成NPU指令,到性能怎么调,这条线上的每个工具都是你的瑞士军刀。第二,是华为和社区攒下的“资源库”,训练营、认证、开源项目、大佬云集的论坛,这些地方藏着真经,也藏着机会。第三,也是最重要的,是一条被验证过无数次的“打怪升级路径”

2025-12-03 18:29:24 778

原创 突破架构差异:实现 Triton 算子从 CUDA 到昇腾 NPU 的高效迁移

本文系统介绍了Triton算子从CUDA到昇腾NPU的跨平台迁移技术,提出包含硬件抽象层适配、内存模型转换和性能优化的完整迁移框架。通过架构差异分析、接口映射转换和计算资源重平衡等关键技术,实现了迁移成本降低70%、性能损失控制在15%以内的优化目标。文章详细阐述了网格配置迁移算法、内存访问优化策略等核心方法,并提供了生产级迁移框架实现和性能对比测试方案。基于13年异构计算经验,总结了典型迁移问题库和验证方法,实际项目数据显示迁移后算子性能保持率达85%以上。该技术显著提升了开发效率,为异构计算场景下的算子

2025-12-02 23:41:24 1278

原创 昇腾Ascend C高性能算子优化:突破内存墙与计算墙的深度实践

本文是一份来自一线实战的昇腾CANN算子优化全攻略。我将以多年老兵的视角,直击AI计算两大核心矛盾——内存墙与计算墙,用大白话拆解在Ascend C层面系统化攻克它们的完整方法论。文章将彻底避开空洞理论,聚焦于我们团队在优化MoE、Transformer等大模型关键算子时,那些真正起作用的技术细节、踩过的深坑和提炼出的通用心法。从性能分析定位、数据类型革命、访存优化黑科技到计算流水线重构,我将提供可复现的代码框架和决策流程,帮助你将算子性能提升一个数量级。昇腾官方文档 - CANN开发指南。

2025-12-02 23:11:20 753

原创 超越Pow - Ascend C实现复杂算子(如Reduce、MatMul)的策略

本文系统阐述了AscendC复杂算子的实现策略与优化方法,重点分析了Reduce和MatMul算子的性能瓶颈突破。通过多级并行Reduce算法、分块矩阵乘法等技术,实现了算法与硬件的深度协同优化。文章详细展示了从理论到实践的完整技术路径,包括内存访问优化、计算流水线设计等核心方法。实验数据表明,优化后的算子性能显著提升:Reduce算子加速比达16.89倍,MatMul算子计算性能提升至32.8TFLOPS。文章还探讨了动态负载均衡、自适应优化等高级技巧,并提供了大规模推荐系统的企业级优化案例,验证了技术的

2025-12-01 23:53:14 591

原创 Ascend C量化模式详解:Weight静态量化与Activation动态量化在Matmul中的实践

本文深入探讨了在昇腾NPU上实现高效量化矩阵乘法(Matmul)的关键技术与实践方法。文章首先解析了量化的本质,指出量化是计算范式的重构而非简单的数据类型转换,并详细介绍了昇腾NPU的量化硬件优势。随后,文章分别阐述了权重静态量化和激活值动态量化的实现策略,包括逐通道量化、动态范围调整等技术细节。通过完整的量化Matmul算子实现案例,展示了如何利用AscendC达到85%以上的硬件利用率。最后,作者分享了在千亿参数模型部署中总结的七个量化保精度技巧,包括校准数据选择、混合精度策略和溢出保护机制等。文章强调

2025-12-01 23:50:10 918

原创 Ascend C 硬件架构抽象:最大化硬件性能的深度优化实践

本文系统阐述了昇腾AI处理器硬件架构与AscendC编程模型的协同优化方法。通过分析达芬奇架构的三级计算单元(Cube/Vector/Scalar)和存储层次特性,提出基于硬件抽象的编程模型,实现开发效率与性能的平衡。重点展示了矩阵乘法算子的四级优化过程:从基础实现到分块优化、流水线并行、双缓冲技术,最终实现312.4GFLOPS(92%硬件利用率)的性能表现。针对企业级应用场景,详细介绍了动态负载均衡、原子操作优化等高级技术,并提供了大模型注意力机制优化的实践案例。文章还包含性能分析工具使用指南和常见问题

2025-11-30 23:52:08 1032

原创 逻辑错误的显微镜:Ascend C 算子实现中的边界与精度问题剖析

本文深入剖析AscendC算子开发中的边界条件处理与计算精度保障两大核心挑战。通过系统分析内存对齐、越界访问等边界问题,以及FP16精度损失、累加误差等数值稳定性问题,提供从原理到实践的完整解决方案。文章包含企业级案例研究,如动态分块矩阵乘法优化和高精度Softmax实现,并展望自动化边界检查、自适应精度选择等前沿方向。开发者可获得边界处理清单和精度优化检查表等实用工具,提升算子健壮性。作为昇腾训练营技术干货,本文为AI加速器开发提供关键方法论指导。

2025-11-30 23:48:12 757

原创 【前瞻创想】云原生安全体系演进:从边界防护到内生免疫的变革之路

《云原生安全体系演进与实践》摘要 本文系统阐述了云原生安全的技术演进与实践路径。第一章分析从传统边界防护到云原生内生安全的范式转变,指出容器化、微服务等技术驱动因素。第二章详细解析安全架构设计,包括容器安全、服务网格等核心技术,提供零信任策略等代码示例。第三章通过完整代码案例和分步指南,展示基础设施加固、运行时监控等实战方案。第四章基于金融行业案例,分享企业级实践中的性能优化和故障排查经验。第五章展望AI驱动安全、机密计算等未来趋势。全文贯穿75个技术要点,包含12个可运行代码片段,为构建智能、自动化的云原

2025-11-29 12:08:11 1119

原创 【探索实战】边缘计算场景落地实践:基于Kurator构建跨云边缘计算平台

《Kurator边缘计算平台实战指南》摘要 本文系统阐述了基于Kurator构建企业级边缘计算平台的完整方案。作为云边协同计算解决方案,Kurator深度整合KubeEdge、K3s等生态组件,提供统一管控、边缘自治和智能调度三大核心能力。通过分层架构设计实现控制面与数据面分离,支持毫秒级响应、90%带宽优化和离线自治等边缘场景关键需求。实战部分详细演示了从环境部署、节点接入到应用分发的全流程,并针对网络不稳定等挑战提供了多链路容错方案。实测数据显示,该方案可降低80%运维复杂度,提升70%应用分发效率,已

2025-11-29 11:56:23 803

原创 maven用的阿里镜像,下载jar包总是出错,报错找不到证书,仓库中出现lastupdated文件

遇到的问题(踩坑记录,警示自己):运行之前项目的时候项目起不来,pom报错sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target,本地仓库查看出现lastupdated文件。...

2020-04-30 17:19:28 958

原创 获取jar包的artifactId,groupId,version,并手动将jar包安装到maven本地仓库

开发过程中拿到一个jar,需要在项目中引入maven依赖,但是并不知道它的groupId,artifactId,version,没法加入maven依赖。用jna这个jar包举个例子,用反编译软件打开这个jar包(我用的jd-gui),然后得到maven依赖如下:<dependency> <groupId>com.sun.jna</groupId&gt...

2020-02-23 21:53:50 7213

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除