MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

最新推荐文章于 2022-04-26 15:06:50 发布

o0Helloworld0o

最新推荐文章于 2022-04-26 15:06:50 发布

阅读量132

点赞数

分类专栏：读书笔记

本文链接：https://blog.csdn.net/o0Helloworld0o/article/details/109203408

版权

读书笔记专栏收录该内容

40 篇文章 1 订阅

订阅专栏

【常规convolutions】

定义输入feature map尺寸为 $D_F\times D_F\times M$ ，输出feature map尺寸为 $D_F\times D_F\times N$ ，假设卷积前后空间维度不变，通道数由 $M$ 变为 $N$

定义卷积核为 $N$ 个 $D_K\times D_K\times M$

常规卷积的计算量为
$\underbrace{N}_{N个}\cdot\underbrace{D_K\cdot D_K\cdot M}_{\text{一个位置上卷积}}\cdot\underbrace{D_F\cdot D_F}_{\text{遍历所有位置}}$

【depthwise separable convolutions】

depthwise separable convolutions的思想是首先孤立 $M$ 个channel，各个channel自己做卷积，然后使用conv1x1联系 $M$ 个channel，输出 $N$ 个channel

第一步，depthwise convolution
因为把每个channel独立开来，所以看作 $M$ 个 $D_F\times D_F\times 1$ ，那么卷积核的尺寸一定是 $M$ 个 $D_K\times D_K\times 1$ ，这一步的结果为 $D_F\times D_F\times M$
这一步的计算量为
$\underbrace{M}_{M个}\cdot\underbrace{D_K\cdot D_K\cdot 1}_{\text{一个位置上卷积}}\cdot\underbrace{D_F\cdot D_F}_{\text{遍历所有位置}}$

第二步，pointwise convolution
利用conv1x1改变通道数，那么卷积核的尺寸为 $N$ 个 $1\times1\times M$
这一步的计算量为
$\underbrace{N}_{N个}\cdot\underbrace{1\cdot1\cdot M}_{\text{一个位置上卷积}}\cdot\underbrace{D_F\cdot D_F}_{\text{遍历所有位置}}$

故整个的计算量为
$\begin{aligned} &D_K\cdot D_K\cdot M\cdot D_F\cdot D_F + M\cdot N \cdot D_F\cdot D_F \qquad(5) \\ &=D_F\cdot D_F\cdot M\cdot(D_K\cdot D_K + N) \end{aligned}$

【MobileNet Architecture】

常规的网络有Conv3x3-BN-ReLU模块，在MobileNet中修改如下

(N, C, H, W)
【Depthwise Conv3x3】
【BN + ReLU】
(N, C, H, W)
【Conv1x1 C→C】
【BN + ReLU】
(N, C, H, W)

若要实现空间维度减半，channel翻倍，则为

(N, C, H, W)
【Depthwise Conv3x3, s=2, p=1】
【BN + ReLU】
(N, C, H/2, W/2)
【Conv1x1 C→2C】
【BN + ReLU】
(N, 2C, H/2, W/2)

MobileNet结构

(N, 3, 224, 224)
【Conv3x3 3→32 s=2 p=1】
【BN + ReLU】
(N, 32, 112, 112)

【Conv3x3 dw s=1 p=0】（第1组，通道32→64）
【BN + ReLU】
(N, 32, 112, 112)
【Conv1x1 32→64 s=1 p=0】
【BN + ReLU】
(N, 64, 112, 112)

【Conv3x3 dw s=2 p=1】（第2组，通道加倍，空间减半）
【BN + ReLU】
(N, 64, 56, 56)
【Conv1x1 64→128 s=1 p=0】
【BN + ReLU】
(N, 128, 56, 56)

【Conv3x3 dw s=1 p=0】（第3组，残差）
【BN + ReLU】
(N, 128, 56, 56)
【Conv1x1 128→128 s=1 p=0】
【BN + ReLU】
(N, 128, 56, 56)

【Conv3x3 dw s=2 p=1】（第4组，通道加倍，空间减半）
【BN + ReLU】
(N, 128, 28, 28)
【Conv1x1 128→256 s=1 p=0】
【BN + ReLU】
(N, 256, 28, 28)

Conv3x3 dw s=1 p=0】（第5组，残差）
【BN + ReLU】
(N, 256, 28, 28)
【Conv1x1 256→256 s=1 p=0】
【BN + ReLU】
(N, 256, 28, 28)

【Conv3x3 dw s=2 p=1】（第6组，通道加倍，空间减半）
【BN + ReLU】
(N, 256, 14, 14)
【Conv1x1 256→512 s=1 p=0】
【BN + ReLU】
(N, 512, 14, 14)

Conv3x3 dw s=1 p=0】（第7组，残差，重复5次）
【BN + ReLU】
(N, 512, 14, 14)
【Conv1x1 512→512 s=1 p=0】
【BN + ReLU】
(N, 512, 14, 14)

【Conv3x3 dw s=2 p=1】（第8组，通道加倍，空间减半）
【BN + ReLU】
(N, 512, 7, 7)
【Conv1x1 512→1024 s=1 p=0】
【BN + ReLU】
(N, 1024, 7, 7)

【Global AvgPool】
(N, 1024, 1, 1)→(N, 1024)
【Linear 1024→1000】
【Softmax】
(N, 1000)

缩放参数

设置width multiplier $\alpha$ 表示对通道数进行缩减
当 $\alpha=1$ 时，通道数3→32→64→128→256→512→1024
当 $\alpha=0.75$ 时，通道数3→24→48→96→192→384→768
当 $\alpha=0.5$ 时，通道数3→16→32→64→128→256→512
当 $\alpha=0.25$ 时，通道数3→8→16→32→64→128→256

设置resolution multiplier $\rho$
当 $\rho=1$ 时，空间尺寸224→112→56→28→14→7
当 $\rho=6/7$ 时，空间尺寸192→96→48→24→12→6
当 $\rho=5/7$ 时，空间尺寸160→80→40→20→10→5
当 $\rho=4/7$ 时，空间尺寸128→64→32→16→8→4

Table 6和7给出了不同 $\alpha$ 和 $\rho$ 的实验结果
在这里插入图片描述

o0Helloworld0o

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

定义输入feature map尺寸为DF×DF×MD_F\times D_F\times MDF×DF×M，输出feature map尺寸为DF×DF×ND_F\times D_F\times NDF×DF×N，假设卷积前后空间维度不变，通道数由MMM变为NNN
复制链接

扫一扫