ShuffleNet V2 学习笔记

最新推荐文章于 2024-07-28 10:59:41 发布

tomeasure

最新推荐文章于 2024-07-28 10:59:41 发布

阅读量236

点赞数

分类专栏： CV 深度学习文章标签：深度学习人工智能算法 shufflenetV2

本文链接：https://blog.csdn.net/qq_29695701/article/details/115773475

版权

45 篇文章 3 订阅

订阅专栏

24 篇文章 2 订阅

订阅专栏

原论文：《ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design》

文中分析了模型的 FLOPS 与实际计算速度之间的差异：

以 FLOPS 为判定标注时，未考虑一些会影响速度的重要因素。
- 内存访问耗时(Memory Access Cost, MAC)，该项因素在分组卷积耗时中占据了相当大份额；
- 并行化程度(Degree of Parallelism)，在相同的 FLOPS 下，模型并行化程度越高，执行速度越快。
平台也会影响计算速度，这就使某些操作即便具有相同的 FLOPS，也会导致计算速度的不通。
- 张量分解常被用于加快矩阵乘法的计算速度，但是由于CUDNN计算库的问题，它在GPU上的速度可能会大大折扣。

基于上面的分析，在设计加速版模型时，文章中提出了两项原则：

文章中对这四项原则有比较详细的分析，这里不再摘录，仅放一下作者等人所做的 实验结果。

v1 与 v2 对比：
在这里插入图片描述

仅介绍图中的 $(c)$

Channel Split 将输入特征的通道 $c$ 分割为 $c^{'}$ 与 $c - c^{'}$ （文章中使用 $c^{'} = c / 2$ ）两个分支，其中一个分支与另一个经卷积处理的分支跳连，以构成 分组卷积 的形式，并且减少了 ReLU 与深度卷积（Depth Convolution）等元素级别的操作；
两个 $1\times 1$ Conv 的输入输出通道数相同；
使用拼接的方式融合两路分支的特征。

整体结构：

在这里插入图片描述

最后是实验，略

关注

专栏目录