主流部署端深度学习框架

最新推荐文章于 2025-10-09 20:32:39 发布

原创

最新推荐文章于 2025-10-09 20:32:39 发布 · 2.8k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #边缘端 #深度学习框架 #tensorflow #ncnn

NCNN

腾讯开源的ncnn 是一个为手机端极致优化的高性能神经网络前向计算框架。ncnn 从设计之初深刻考虑手机端的部署和使用。无第三方依赖，跨平台，手机端 cpu 的速度快于目前所有已知的开源框架。基于 ncnn，开发者能够将深度学习算法轻松移植到手机端高效执行，开发出人工智能 APP，将 AI 带到你的指尖。

同框架对比

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GVXBj4TE-1611899997157)(NCNN.JPG)]

对比目前已知的同类框架，ncnn是CPU框架中最快，安装包体积最小，跨平台兼容性中最好的。CoreML 是苹果主推的 iOS GPU 计算框架，速度非常快，但仅支持 iOS 11 以上的 iphone 手机，落地受众太狭窄，非开源导致开发者无法自主扩展功能，对开源社区不友好。

支持卷积神经网络，多输入和多分支

ncnn 支持卷积神经网络结构，以及多分支多输入的复杂网络结构，如主流的 vgg、googlenet、resnet、squeezenet 等。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZX4Z9Q35-1611899997179)(NCNNMODEL.jpg)]

计算时可以依据需求，先计算公共部分和 prob 分支，待 prob 结果超过阈值后，再计算 bbox 分支。

如果 prob 低于阈值，则可以不计算 bbox 分支，减少计算量。

无任何第三方库依赖

ncnn 不依赖任何第三方库，完全独立实现所有计算过程，不需要 BLAS/NNPACK 等数学计算库。

纯 C++ 实现，跨平台

ncnn 代码全部使用 C/C++ 实现，以及跨平台的 cmake 编译系统，可在已知的绝大多数平台编译运行，如 Linux，Windows，MacOS，Android，iOS 等。

由于 ncnn 不依赖第三方库，且采用 C++ 03 标准实现，只用到了 std::vector 和 std::string 两个 STL 模板，可轻松移植到其他系统和设备上。

汇编级优化，计算速度极快

ncnn 为手机端 CPU 运行做了深度细致的优化，使用 ARM NEON 指令集实现卷积层，全连接层，池化层等大部分 CNN 关键层。

对于寄存器压力较大的 armv7 架构，我们手工编写 neon 汇编，内存预对齐，cache 预缓存，排列流水线，充分利用一切硬件资源，防止编译器意外负优化。

测试手机为 Nexus 6p，Android 7.1.2

MNN

AI科学家贾扬清如此评价道：“与 Tensorflow、Caffe2 等同时覆盖训练和推理的通用框架相比，MNN 更注重在推理时的加速和优化，解决在模型部署的阶段的效率问题，从而在移动端更高效地实现模型背后的业务。这和服务器端 TensorRT 等推理引擎的想法不谋而合。在大规模机器学习应用中，考虑到大规模的模型部署，机器学习的推理侧计算量往往是训练侧计算量的十倍以上，所以推理侧的优化尤其重要。”

模型

如上图所示，MNN 可以分为 Converter 和 Interpreter 两部分。

Converter 由 Frontends 和 Graph Optimize 构成。前者负责支持不同的训练框架，MNN 当前支持 Tensorflow(Lite)、Caffe 和 ONNX；后者通过算子融合、算子替代、布局调整等方式优化图。

Interpreter 由 Engine 和 Backends 构成。前者负责模型的加载、计算图的调度；后者包含各计算设备下的内存分配、Op 实现。在 Engine 和 Backends 中，MNN应用了多种优化方案，包括在卷积和反卷积中应用 Winograd 算法、在矩阵乘法中应用 Strassen 算法、低精度计算、Neon 优化、手写汇编、多线程优化、内存复用、异构计算等。