- 博客(6)
- 收藏
- 关注
原创 小模型在昇腾NPU上的推理部署:【onnx转om失败问题定位思路】
在昇腾NPU上进行模型推理部署时,通常需要将训练框架导出的ONNX模型转换为昇腾专用的OM模型格式。然而,在实际的模型转换过程中,开发者经常会遇到ATC(Ascend Tensor Compiler)工具报错导致转换失败的情况。本文基于实际项目经验,系统总结了ONNX转OM失败的常见问题及定位思路,为开发者提供实用的排查指南。基础排查:首先检查错误码,排除工具使用问题深度调试:生成DEBUG日志和GE图进行详细分析常见问题对照:参考上述常见问题及解决方案技术支援。
2026-02-26 09:20:16
1012
原创 小模型在昇腾NPU上的推理部署:【AISBENCH】
AISBENCH是昇腾平台面向轻量级模型推出的端侧推理工具集,它集成了模型转换、图优化、量化压缩与运行时调度等核心功能。极轻量:内存占用与二进制体积极小,适合嵌入式场景低延迟:优化数据流与算子调度,推理速度更快易用性:提供一键式编译工具,简化部署流程高能效:支持功耗与性能的平衡调节,延长设备续航本文详细介绍了使用AISBENCH在昇腾 NPU 上部署轻量化模型的完整流程,从环境配置到实际推理,提供了代码示例。环境准备:选择合适的安装方式,推荐使用官方镜像模型转换。
2026-02-26 09:20:03
603
原创 小模型在昇腾NPU上的推理部署:【使用TorchAIR进行模型图编译推理优化】
本文旨在介绍如何利用华为昇腾的技术,在昇腾AI处理器上对PyTorch模型进行图编译优化,以提升推理性能。我们将以Meta的DINOv3模型为例,演示如何使用结合TorchAIR后端实现"一次编译、多次运行"的高效推理模式。什么是 TorchAIR?是华为昇腾为PyTorch开发者提供的高级图编译优化工具。它基于引入的API,通过将PyTorch模型的计算图转换为昇腾硬件友好的中间表示(IR),实现更深层次的性能优化。与基础的torch_npu全图捕获:将整个模型的计算图一次性捕获并优化算子融合。
2026-02-25 14:54:40
1245
原创 小模型在昇腾NPU上的推理部署:【ONNX 模型快速部署】
本文为开发者提供一份实用指南,演示如何利用与华为 CANN的对接能力,将通用 ONNX 模型快速部署到昇腾 AI 处理器(NPU)上进行高效推理。通过标准化的中间格式和高效的执行提供者,实现一次导出、多处部署,是拥抱国产 AI 硬件生态的便捷路径。什么是 ONNX Runtime CANN?是一个跨平台的高性能推理引擎,支持多种硬件后端。CANN是华为昇腾 AI 处理器的计算架构。两者的结合点在于ONNX Runtime 的 CANN Execution Provider (EP)。
2026-02-25 14:53:02
847
原创 小模型在NPU上的推理部署:【知识地图】
当前,人工智能应用正加速从云端向边缘侧与终端设备渗透。在这一趋势下,计算效率高、延迟低、隐私性好的本地化推理成为关键需求。专为神经网络计算设计的NPU(神经网络处理单元)因其在能效比上的巨大优势,已成为边缘AI芯片的核心组件。与此同时,小模型(参数量通常在千万级以下)凭借其更小的体积、更快的速度以及对硬件更低的依赖,在移动端、IoT设备和工业嵌入式场景中展现出强大的应用潜力。将小模型部署于NPU,旨在充分发挥两者优势,实现高性能、低功耗、低成本的AI赋能。
2026-02-13 15:48:52
163
原创 小模型在昇腾NPU上的推理部署:【 使用torch_npu进行模型迁移】
当前,人工智能应用正加速从云端向边缘侧与终端设备渗透。在这一趋势下,成为关键需求。专为神经网络计算设计的因其在能效比上的巨大优势,已成为边缘AI芯片的核心组件。与此同时,凭借其更小的体积、更快的速度以及对硬件更低的依赖,在移动端、IoT设备和工业嵌入式场景中展现出强大的应用潜力。将小模型部署于NPU,旨在充分发挥两者优势,实现的AI赋能。然而,从训练完成的模型到在NPU上高效、精准地运行,中间存在一个复杂的“部署鸿沟”。这涉及到等一系列工程挑战。
2026-02-13 15:30:12
711
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅