【深度学习实践】端侧（移动/嵌入式）推理模型

云博士的AI课堂

于 2025-03-05 08:48:06 发布

阅读量823

点赞数 21

分类专栏：哈佛博后带你玩转机器学习深度学习文章标签：深度学习人工智能端侧推理模型 ncnn onnx tensorflow pytorch

本文链接：https://blog.csdn.net/l35633/article/details/146032300

版权

哈佛博后带你玩转机器学习同时被 2 个专栏收录

257 篇文章

订阅专栏

深度学习

196 篇文章

订阅专栏

深度学习实践：端侧（移动/嵌入式）推理模型的综述

随着深度学习在计算机视觉、语音识别、自然语言处理等领域取得突破性进展，模型在端侧（移动设备、嵌入式平台）的部署需求也随之激增。在端侧进行推理能够降低云端通信带宽、减少延迟并提高数据隐私安全。然而，受制于移动/嵌入式设备的算力和内存限制，传统的服务器或桌面端推理框架难以直接满足轻量化、高效率、跨平台的部署要求。

针对这一需求，业界涌现了多款专为端侧部署而优化的推理引擎或框架，如 ncnn、MNN、TNN、TensorFlow Lite、Paddle Lite、ONNX Runtime Mobile 等。它们在算子库、内存管理、多线程优化、硬件加速（CPU/GPU/NPU/DSP 等）等方面各有侧重，开发者可以根据已有训练框架、目标硬件平台和性能体积需求，选择合适的端侧推理方案。

下面先给出它们的基本信息与平台支持对比（表1），随后将硬件加速、模型格式、部署体积、性能表现、生态与文档、应用场景等要素拆分为两张三列表（表2.1 和表2.2），分别展示三款框架的相关信息，帮助开发者进行快速评估。

表1：基本信息与平台支持

对比项	ncnn	MNN	TNN	TensorFlow Lite	Paddle Lite	ONNX Runtime Mobile
开源组织/公司	腾讯优图 (Tencent)	阿里巴巴 (Alibaba)	腾讯 (Tencent)	谷歌 (Google)	百度 (Baidu)	微软 (Microsoft)
主要目标	面向移动端/嵌入式的轻量化高性能推理	移动端高效推理，注重多后端 (CPU/GPU/NPU)	跨平台、多硬件加速 (GPU/NPU)，专注端侧高性能推理	移动端/嵌入式推理 (与 TensorFlow 生态紧密结合)	端侧推理 (与飞桨 PaddlePaddle 生态结合)	通用 ONNX 推理，提供移动端精简版本
语言 & API	- C++ (核心)- 支持 Android Java 接口	- C++ (核心)- 多语言接口 (Java/Python)	- C++ (核心)- 兼容多语言 (C++/Java/Python)	- C++ (核心)- 原生支持 Java/Kotlin (Android)- Swift/ObjC (iOS)	- C++ (核心)- 也提供 Java/Python/JS 等接口 (部分需查官方文档)	- C/C++ (核心)- 也提供 Python/C# 等多语言接口
支持平台	Android、iOS、Linux、Windows、Mac 等	Android、iOS、Linux、Windows、Mac 等	Android、iOS、Linux、Windows、Mac 等	Android、iOS、Linux、Windows、树莓派等	Android、iOS、Linux、Windows、鸿蒙、X86、ARM 等	Android、iOS、Linux、Windows、Mac 等

表2：端侧推理框架进一步对比（拆分为两个三列表）

下面针对 硬件加速、模型格式、部署体积、性能表现、生态 & 文档、典型应用场景 六个维度，将六款框架拆分为两组表格，每组涵盖三款框架的信息。

表2.1（ncnn / MNN / TNN）

对比项	ncnn	MNN	TNN
硬件加速	- CPU (ARM/x86)，有深度优化- 可选 Vulkan (GPU)	- CPU/GPU- 部分芯片的 NPU / DSP 加速- Metal (iOS)	- CPU/GPU- 多家厂商的 NPU/AI 芯片加速 (海思、华为、联发科等)- Metal/OpenCL 等
模型格式	- 转换工具：`onnx2ncnn`、`caffe2ncnn`- 常见流程：先导出 ONNX/Caffe，再转为 .param + .bin	- 转换工具：MNNConvert- 支持 Caffe/TensorFlow/ONNX/PyTorch 等多种格式	- 转换工具：TNNConvert- 支持 ONNX/Caffe/TensorFlow 等
部署体积	- 核心库非常小 (几百 KB ~ 1MB 内)- 无第三方依赖	- 核心也较为精简- 自带算子库依赖性少	- 核心库体积小，并可选功能裁剪
性能表现	- 在 ARM 设备上深度优化，推理速度快- Vulkan GPU 加速可进一步提升- 部分算子仍需评估 GPU 覆盖度	- CPU 端也有较高效优化- 多后端(含 NPU)可进一步提升性能	- 面向 GPU/NPU 等多硬件做专门优化- 对多线程、SIMD 支持良好
生态 & 文档	- GitHub 社区活跃- 中文文档相对完善- 常见应用示例（人脸检测/识别、OCR、目标检测等）	- 国内社区也较为活跃- 工具链和示例丰富，支持多种部署场景	- 官方示例丰富- 对腾讯系业务(如 QQ 小视频)场景有深度优化
典型应用场景	- 移动端/嵌入式需要极致轻量高性能的 CNN 推理- 不包含训练，纯推理框架	- 同样注重移动端/嵌入式，小体积、多硬件加速- 兼容多种训练框架导出的模型	- 对多种芯片（CPU/GPU/NPU）需要快速部署且对性能要求高- 面向端侧多种视觉推理场景（检测、分割、识别等）

表2.2（TensorFlow Lite / Paddle Lite / ONNX Runtime Mobile）

对比项	TensorFlow Lite	Paddle Lite	ONNX Runtime Mobile
硬件加速	- CPU- GPU Delegate (OpenGL/Metal)- NNAPI Delegate (部分 SoC NPU)	- CPU/GPU- 华为 NPU、瑞芯微 NPU 等- OpenCL / Metal / NNAdapter (多硬件适配)	- CPU (默认)- GPU (CUDA、DirectML 等，移动端则依平台而定)- 部分第三方 NPU/AI 加速 (需社区插件)
模型格式	- 支持从 TensorFlow(.pb/.saved_model) 直接转换- 也可经由 PyTorch/ONNX 等转为 TF Lite（需间接转换）	- 转换工具：Paddle2ONNX / X2Paddle / Paddle Lite converter- 主要从 PaddlePaddle 模型转换，也支持 ONNX 等	- 原生支持 ONNX (.onnx) 格式- 也可从 PyTorch、TensorFlow 导出为 ONNX 后直接加载
部署体积	- 功能较多，但最小化后体积可达 1-2MB（与所用 Delegate 等相关）	- 可根据需求裁剪算子，最终体积依赖具体后端及算子集	- 提供专门的精简版本，通常 1-2MB 起步
性能表现	- 默认 CPU 推理速度一般- 若使用量化 + GPU/NNAPI Delegate，性能可大幅提升	- 对部分国产芯片(华为/瑞芯微等)有针对性优化- 多后端可选，具体性能随硬件适配度和网络结构而定	- 通用性高，但在移动端对特定 SoC 的深度优化可能不足- 优势是支持多种后端 (CUDA、TensorRT、DirectML 等)，易跨平台
生态 & 文档	- Google 官方，生态庞大- TF Lite Model Maker、官方示例等丰富- 部署工具链完善	- 飞桨生态，国内文档完善- 深度结合百度 AI 工具链 (如 EasyDL)	- 微软官方支持，ONNX 标准通用度高- 跨平台 & 多语言支持（C/C++/Python/C# 等）
典型应用场景	- TensorFlow 训练完成后直接在移动端/嵌入式部署- 各种官方与第三方社区示例（如图像分类、语音识别）	- 使用 PaddlePaddle 训练的模型端侧落地- 国内多样化硬件（华为 NPU、瑞芯微 RKNPU）等加速场景	- 需要统一在 ONNX 格式模型下做多平台部署- 对 GPU/CPU 或部分 NPU 进行通用化推理，加速后端可灵活切换

简要总结

ncnn：腾讯优图开源，专攻移动端/嵌入式的 轻量级高效 推理框架。非常适合 ARM CPU 上部署，体积小、推理速度快。
MNN / TNN：国内团队（阿里、腾讯）开源，也同样定位于移动端，拥有多种硬件加速选项，对 GPU/NPU 兼容性好。
TensorFlow Lite：Google 官方，生态完善，适合从 TensorFlow 训练到部署的一体化流程，也有量化/Delegate 加速等。
Paddle Lite：百度飞桨生态，国内文档友好，适合用 PaddlePaddle 训练好的模型，支持多种国产芯片加速。
ONNX Runtime Mobile：微软支持的通用推理引擎，适合 ONNX 模型部署，跨平台且提供移动端精简库，但在手机 SoC 优化上不及国内专门框架深入。