46.现有移动端开源框架及其特点——QNNPACK-2

最新推荐文章于 2024-05-13 09:54:27 发布

大勇任卷舒

最新推荐文章于 2024-05-13 09:54:27 发布

阅读量383

点赞数

分类专栏：深度学习文章标签：开源

@大勇若怯任卷舒

本文链接：https://blog.csdn.net/m0_47454596/article/details/129948267

版权

深度学习专栏收录该内容

66 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了QNNPACK在深度卷积方面的优化，包括3×3深度卷积的高性能实现，利用通用暂存器展开循环并减少地址重载。QNNPACK在MobileNetV2和MobileNetV1上的量化性能测试显示，其速度远超TensorFlow Lite，且在准确率上有优势。

摘要由CSDN通过智能技术生成

46.1 深度卷积

分组卷积（grouped convolution）将输入和输出通道分割成多组，然后对每个组进行分别处理。在有限条件下，当组数等于通道数时，该卷积就是深度卷积，常用于当前的神经网络架构中
- 深度卷积对每个通道分别执行空间滤波，展示了与正常卷积非常不同的计算模式。因此，通常要向深度卷积提供单独实现，QNNPACK 包括一个高度优化版本 3×3 深度卷积。
深度卷积的传统实现是每次都在卷积核元素上迭代，然后将一个卷积核行和一个输入行的结果累加到输出行
- 对于一个 3×3 的深度卷积，此类实现将把每个输出行更新 9 次
- 在 QNNPACK 中，研究者计算所有 3×3 卷积核行和 3×3 输入行的结果，一次性累加到输出行，然后再处理下个输出行。
QNNPACK 实现高性能的关键因素在于完美利用通用暂存器（GPR）来展开卷积核元素上的循环，同时避免在 hot loop 中重新加载地址寄存器
- 32-bit ARM 架构将实现限制在 14 个 GPR。在 3×3 深度卷积中，需要读取 9 个输入行和 9 个卷积核行。这意味着如果想完全展开循环必须存储 18 个地址
- 然而，实践中推断时卷积核不会发生变化。因此 Facebook 研究者使用之前在 CxKHxKW 中的滤波器，将它们封装进 [C/8]xKWxKHx8，这样就可以仅使用具备地址增量（address increment）的一个 GPR 访问所有滤波器
- （研究者使用数字 8 的原因在于，在一个命令中加载 8 个元素然后减去零，在 128-bit NEON 暂存器中生成 8 个 16-bit 值。

了解本专栏

超级会员免费看

大勇任卷舒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
46.现有移动端开源框架及其特点——QNNPACK-2

MobileNetV2大数据视频推荐：网易云课堂CSDN人工智能算法竞赛实战AIops智能运维机器学习算法实战ELK7 stack开发运维实战PySpark机器学习从入门到精通AIOps智能运维实战腾讯课堂大数据语音推荐：ELK7 stack开发运维企业级大数据技术应用大数据机器学习案例之推荐系统自然语言处理大数据基础人工智能：深度学习入门到精通
复制链接

扫一扫

专栏目录