MobileNet_ssd原理

之前实习用过太多次mobilenet_ssd,但是一直只是用,没有去了解它的原理。今日参考了一位大神的博客,写得很详细,也很容易懂,这里做一个自己的整理,供自己理解,也欢迎大家讨论。

先整理MobileNet
这里奉上大神的博客地址:https://blog.csdn.net/u013082989/article/details/77970196
论文地址:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
caffe版mobilenet:Caffe Implementation of Google’s MobileNets (v1 and v2)

1:mobilenet主要是为了适用于移动端而提出的一种轻量级深度网络模型。主要使用了深度可分离卷积Depthwise Separable Convolution将标准卷积核进行分解计算,减少了计算量
2:引入了两个超参数来减少参数量和计算量

  • 宽度乘数(Width Multiplier):减少输入输出的channels
  • 分辨率乘数(Resolution Multiplier):减少输入输出的feature map的大小

3:深度可分离卷积是将一个标准的卷积核分成深度卷积核和1x1的点卷积核,假设输入为M个通道的feature map,卷积核大小为 DKDK D K ∗ D K ,输出通道为N,那么标准卷积核即为 MDKDKN M ∗ D K ∗ D K ∗ N 。例如,输入feature map 为 mn16 m ∗ n ∗ 16 ,想输出32通道,那么卷积核应为 163332 16 ∗ 3 ∗ 3 ∗ 32 ,则可以分解为深度卷积: 1633 16 ∗ 3 ∗ 3 得到的是16通道的特征图谱。点卷积为 161132 16 ∗ 1 ∗ 1 ∗ 32 ,如果用标准卷积,则计算量为: mn163332=mn4608 m ∗ n ∗ 16 ∗ 3 ∗ 3 ∗ 32 = m ∗ n ∗ 4608 。用深度可分解卷积之后的计算量为 mn1633+mn161132=mn656 m ∗ n ∗ 16 ∗ 3 ∗ 3 + m ∗ n ∗ 16 ∗ 1 ∗ 1 ∗ 32 = m ∗ n ∗ 656

4:所以和标准卷积核相比计算量比率为: DkDkDfDfM+DfDfMNDkDkMNDfDf=1N+1Dk2 D k ∗ D k ∗ D f ∗ D f ∗ M + D f ∗ D f ∗ M ∗ N D k ∗ D k ∗ M ∗ N ∗ D f ∗ D f = 1 N + 1 D k 2

5:深度可分解卷积操作示意图如下:
第一步深度卷积操作是在输入的每个channel上进行卷积操作
第二步逐点卷积才是结合起来

6:mobilenet共28层(深度卷积和点卷积单独算一层),每层后边都跟有batchnorm层 和relu层
这里写图片描述
这里写图片描述

7:引入宽度乘数和分辨率乘数两个超参数,
宽度乘数 α α 主要用于减少channels,即即输入层的channels个数 M M ,变成αM,输出层的channels个数 N N 变成了αN
所以引入宽度乘数后的总的计算量是: DkDkαMDFDF+αMαNDFDF D k ⋅ D k ⋅ α M ⋅ D F ⋅ D F + α M ⋅ α N ⋅ D F ⋅ D F

分辨率乘数 ρ ρ 主要用于降低图片的分辨率,即作用在feature map 上
所以引入分辨率乘数后的总的计算量为: DkDkαMρDFρDF+αMαNρDFρDF D k ⋅ D k ⋅ α M ⋅ ρ D F ⋅ ρ D F + α M ⋅ α N ⋅ ρ D F ⋅ ρ D F

在看看MobileNet_ssd
mobilenet_ssd caffe模型可视化地址:MobileNet_ssd
可以看出,conv13是骨干网络的最后一层,作者仿照VGG-SSD的结构,在Mobilenet的conv13后面添加了8个卷积层,然后总共抽取6层用作检测,貌似没有使用分辨率为38*38的层,可能是位置太靠前了吧。
提取默认框的6层为conv11, conv13, conv14_2, conv15_2, conv16_2, conv17_2,该6层feature map 每个cell产生的默认框个数分别为3,6,6,6,6,6。也就是说在那6层的后边接的用于坐标回归的3*3的卷积核(层名为conv11_mbox_loc……)的输出个数(num output)分别为12,24,24,24,24,24,24。用于坐标回归 查看输出个数

那6层后边接的用于类别得分的3*3卷积核(层名为conv11_mbox_conf……)的输出个数为3*21(类别为21类,3个默认框) = 63,126, 126, 126, 126, 126。用于输出类别得分 输出个数

  • 14
    点赞
  • 153
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 14
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HaoRenkk123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值