MACE简介

smartcat2010

已于 2022-02-16 23:29:51 修改

阅读量1.3k

点赞数

分类专栏：计算框架算法工程文章标签：并行计算

于 2022-02-15 22:25:41 首次发布

原文链接：https://www.oschina.net/p/mace?hmsr=aladdin1e1

版权

算法工程同时被 2 个专栏收录

27 篇文章

订阅专栏

26 篇文章

订阅专栏

MACE是一个针对移动端异构计算平台优化的神经网络计算框架，强调性能、功耗和用户体验。它通过NEON、OpenCL、HexagonHVX等技术进行性能优化，支持功耗管理，确保系统响应，降低内存占用，并提供模型加密保护。MACE适用于多种硬件，包括CPU、GPU和DSP，兼容多种设备，但知名度和生态相对较小。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

移动端推理，相比云端推理，不同的地方：

1. 移动端推理，抹去了网络延迟；云端推理延迟高；计算延迟通过定点量化、模型压缩、高度优化的CPU汇编代码和SIMD、设备定制生成的OpenCL GPU代码、winograd等op加速算法来降低；

2. 移动端推理，转移云计算成本到用户身上了；

3. 移动端推理，数据不上云，增强了用户数据隐私保护；

4. 移动端推理，要降低功耗，别让用户手机掉电太快发热太狠；（通过减少访存量，减少计算量，来实现）

5. 移动端推理，受内存/显存大小限制，要减少模型和库的大小，可用模型剪枝、稀疏化、蒸馏、定点量化等模型压缩技术；

6. 移动端推理，要考虑多种设备的兼容性，兼容各种型号的CPU/GPU/DSP/NPU

7. 移动端推理，占用GPU的同时尽量少阻碍UI图形渲染等影响用户体验的地方；（通过拆分大kernel来实现）

8. 版权保护：通过对C代码的混淆，使得反编译更加困难；

Mobile AI Compute Engine (MACE) 是一个专为移动端异构计算平台优化的神经网络计算框架。主要从以下的角度做了专门的优化：

性能
- 代码经过NEON(ARMv7以上的SIMD)指令，OpenCL以及Hexagon HVX专门优化，并且采用 Winograd算法来进行卷积操作的加速。此外，还对启动速度进行了专门的优化。
功耗
- 支持芯片的功耗管理，例如ARM的big.LITTLE(通过高低性能处理器的协作来降低功率)调度，以及高通Adreno GPU功耗选项。
系统响应
- 支持自动拆解长时间的OpenCL计算任务，来保证UI渲染任务能够做到较好的抢占调度，从而保证系统UI的相应和用户体验。
内存占用
- 通过运用内存依赖分析技术，以及内存复用，减少内存的占用。另外，保持尽量少的外部依赖，保证代码尺寸精简。
模型加密与保护
- 模型保护是重要设计目标之一。支持将模型转换成C++代码，以及关键常量字符混淆，增加逆向的难度。
硬件支持范围
- 支持高通，联发科，以及松果等系列芯片的CPU，GPU与DSP(目前仅支持Hexagon)计算加速。同时支持在具有POSIX接口的系统的CPU上运行。

MACE 的核心框架是 C++，算子分别设计为 OpenCL 和汇编语言，具体选择哪个取决于底层的硬件，而周边工具则采用了更灵活的 Python。

相对于 Caffe/Caffe2/TensorFlow Lite，MACE 最大的优势是对 CPU、GPU 和 DSP 等异构计算的支持，劣势则是知名度和生态有不小的差距；而 Core ML 作为不同平台的专有框架，应用场合目前没有与 MACE 重叠。

博客等级

码龄13年

256
原创

489
点赞

836
收藏

327
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 阿里推理引擎MNN

下一篇：: 腾讯移动端推理框架NCNN

最新评论

NCCL的Double Binary Tree实现原理
nuttee: 有个问题，在计算单二叉树耗时的时候，非叶子节点需要接收其子节点的数据，虽然数据量是2S，但我理解从两个子节点接收数据是可以并行的吧，那耗时依然是 S/B而非你说的2S/B？
NCCL的Double Binary Tree实现原理
yangyangv5: 博主请教一些问题，ring allreduce在设备数量足够大的时候可以近似看所 2S/B+SC,这部分性能与设备无关了，和tree相比tree在性能上的优势是什么呢？RingAllReduce，每次每个节点等量的发送和接收，所以接收到的加和完后，没有带宽再同时发送了这段话不是很理解
Tensorflow论文解读
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Mesos+Docker+Tensorflow集群解决方案
CSDN-Ada助手: 有人说无监督学习才是AI的未来，否则会有多少人工就有多少智能，元芳你怎么看呢？
B树和Clustered/Non-Clustered index
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。