1. vgg
VGG 2014年 ImageNet 定位任务第一名,分类任务第二名。
一般选用16层
堆叠多个3x3的卷积核代替大尺度卷积
input:224x224x3 图像
2个卷积后下采样+2个卷积后下采样+3个卷积后下采样+3个卷积后下采样+3个卷积后下采样 +3全连接层+softmax(将预测结果转为概率分布)
2.mobilenet v1
vgg 权重大小 490m,resnet 644m。
mobilenet 两大亮点:
1. depthwise convolution。俗称dw卷积。
2.增加超参数α(控制卷积核的个数)和β(分辨率的参数)。
传统卷积: 卷积核深度 = 输入特征矩阵深度,所以输出特征矩阵深度 = 卷积核的个数
dw卷积:卷积核深度=1,所以输入特征矩阵深度 = 卷积核个数 =输出矩阵深度
深度可分离卷积 = dw卷积+pw卷积(卷积核大小为1)
可节省参数1/N+1/9
然而,训练后dw卷积核容易废掉,即卷积核参数大部分为0。在v2版本改善。
总体结构:
conv+dw+conv+dw+conv+dw+conv+dw+conv+dw+conv+dw+conv+5(dw+conv)+dw+conv+dw+conv+pool+fc
+softmax
其中每个卷积之后都有BN和RELU
3. mobilenet v2
mobilenet v2 亮点:
1. inverted residuals(倒残差结构)
2. linear bottlenecks
残差结构:
1x1 卷积降维+relu
3x3卷积+relu
1x1卷积升维+relu
倒残差结构:
1x1 卷积升维+relu6
3x3 DW卷积+relu6
1x1卷积降维+linear
对于linear bottlenecks,RELU对低维特征信息造成大量损失。 我们需要一个线性的激活函数。
倒残差结构 当stride =1且输入特征矩阵与输出特征矩阵shape相同时才有shortcut链接。
输出k为分类个数
总体结构:conv+(1 2 3 4 3 3 1 )倒残差+conv +avgpool+conv
4. ssd
输入图片300x300,加上灰条防止失真,分成38,19,10,5,3,1的网格
5.yolo 3
输入 416x416,加上灰条。 13,26,52的网格