MobileNet_ssd原理

最新推荐文章于 2024-04-27 10:04:40 发布

HaoRenkk123

最新推荐文章于 2024-04-27 10:04:40 发布

阅读量4.5w

点赞数 14

分类专栏： CNN原理文章标签： CNN原理

本文链接：https://blog.csdn.net/jiang_ming_/article/details/82356642

版权

CNN原理专栏收录该内容

4 篇文章 2 订阅

订阅专栏

之前实习用过太多次mobilenet_ssd，但是一直只是用，没有去了解它的原理。今日参考了一位大神的博客，写得很详细，也很容易懂，这里做一个自己的整理，供自己理解，也欢迎大家讨论。

先整理MobileNet
这里奉上大神的博客地址：https://blog.csdn.net/u013082989/article/details/77970196
论文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
caffe版mobilenet：Caffe Implementation of Google’s MobileNets (v1 and v2)

1：mobilenet主要是为了适用于移动端而提出的一种轻量级深度网络模型。主要使用了深度可分离卷积Depthwise Separable Convolution将标准卷积核进行分解计算，减少了计算量
2：引入了两个超参数来减少参数量和计算量

宽度乘数（Width Multiplier）：减少输入输出的channels
分辨率乘数（Resolution Multiplier）：减少输入输出的feature map的大小

3：深度可分离卷积是将一个标准的卷积核分成深度卷积核和1x1的点卷积核，假设输入为M个通道的feature map，卷积核大小为 $D_K *D_K$ ，输出通道为N，那么标准卷积核即为 $M * D_K * D_K * N$ 。例如，输入feature map 为 $m * n * 16$ ，想输出32通道，那么卷积核应为 $16 * 3 * 3 *32$ ，则可以分解为深度卷积： $16 * 3 * 3$ 得到的是16通道的特征图谱。点卷积为 $16 * 1 * 1 * 32$ ，如果用标准卷积，则计算量为： $m * n * 16 * 3 * 3 * 32 = m * n * 4608$ 。用深度可分解卷积之后的计算量为 $m * n * 16 * 3 * 3 + m * n * 16 * 1 * 1 * 32 = m * n * 656$

4：所以和标准卷积核相比计算量比率为： $\frac{D_k * D_k * D_f * D_f * M + D_f * D_f * M * N}{D_k * D_k * M * N * D_f * D_f} = \frac{1}{N} + \frac{1}{{D_{k}}^{2}}$

5：深度可分解卷积操作示意图如下：
第一步深度卷积操作是在输入的每个channel上进行卷积操作
第二步逐点卷积才是结合起来

6：mobilenet共28层（深度卷积和点卷积单独算一层），每层后边都跟有batchnorm层和relu层
这里写图片描述

7：引入宽度乘数和分辨率乘数两个超参数，
宽度乘数 $\alpha$ 主要用于减少channels,即即输入层的channels个数 $M$ ，变成 $\alpha M$ ，输出层的channels个数 $N$ 变成了 $\alpha N$
所以引入宽度乘数后的总的计算量是： $D_k⋅D_k⋅\alpha M⋅D_F⋅D_F+\alpha M⋅\alpha N⋅D_F⋅D_F$

分辨率乘数 $\rho$ 主要用于降低图片的分辨率，即作用在feature map 上
所以引入分辨率乘数后的总的计算量为： $D_k⋅D_k⋅\alpha M⋅\rho D_F⋅\rho D_F+\alpha M⋅\alpha N⋅\rho D_F⋅\rho D_F$

在看看MobileNet_ssd
mobilenet_ssd caffe模型可视化地址：MobileNet_ssd
可以看出，conv13是骨干网络的最后一层，作者仿照VGG-SSD的结构，在Mobilenet的conv13后面添加了8个卷积层，然后总共抽取6层用作检测，貌似没有使用分辨率为38*38的层，可能是位置太靠前了吧。
提取默认框的6层为conv11, conv13, conv14_2, conv15_2, conv16_2, conv17_2,该6层feature map 每个cell产生的默认框个数分别为3，6，6，6，6，6。也就是说在那6层的后边接的用于坐标回归的3*3的卷积核（层名为conv11_mbox_loc……）的输出个数（num output）分别为12，24，24，24，24，24，24。查看输出个数

那6层后边接的用于类别得分的3*3卷积核（层名为conv11_mbox_conf……）的输出个数为3*21（类别为21类，3个默认框） = 63，126， 126， 126， 126， 126。用于输出类别得分

HaoRenkk123

关注

14
点赞
踩
153

收藏

觉得还不错? 一键收藏
打赏
14
评论
MobileNet_ssd原理

之前实习用过太多次mobilenet_ssd，但是一直只是用，没有去了解它的原理。今日参考了一位大神的博客，写得很详细，也很容易懂，这里做一个自己的整理，供自己理解，也欢迎大家讨论。先整理MobileNet 这里奉上大神的博客地址：https://blog.csdn.net/u013082989/article/details/77970196 论文地址：MobileNets: Effic...
复制链接

扫一扫