相关博文:
DeepLabv1
- 面临的问题
- 下采样导致图像分辨率降低
解决方法:膨胀卷积和改变maxpooling
2、空间不敏感
解决方法:Fully connected CRF(conditional random field条件随机场)
平移不变性:深度卷积神经网络在高级视觉研究领域取得了突破。其卷积和池化操作保证了其不变性,能够提取高级抽象特征。不变性指的是平移不变性,卷积层扩大感知野,池化层的pooling操作,即使图像有小的位移、缩放、扭曲等,提取到的特征依然会保持不变,减小了相对空间位置的影响。这在高级特征提取中作用重大,但在一些低级视觉研究,如语义分割和姿态估计任务中效果是不理想的。我们希望获取具体的空间信息,而这些信息随着网络的加深慢慢丢失掉。
原文链接:https://blog.csdn.net/longxinghaofeng/article/details/85258124
- 网络优势
- 速度更快,文中提到使用了膨胀卷积加速计算,但是fully connected CRFs比较费时间。
- 准确率更高,相比之前最好的网络提升了7.2个百分点
模型结构简单,主要由DCNNs和CRFs联级构成。
作者为了加载预先在ImageNet训练好的VGG-16模型,并保证图片仅缩放了8倍做了如下修改:
修改位置 | 修改前 | 修改后 | 备注 |
所有VGG16的maxpooling层 | 窗口大小2X2,步距2, | 窗口3X3, | |
VGG16中第4、5层maxpooling层 | 步距为2 | 步距为1 | 获得更多的稠密图,图像只缩小了8倍 |
VGG16中的第五层卷积层 | K3*3 ,s=1的卷积核 | K3*3,s=1,p=1,r=2的空洞卷积 | 扩大感受野,提高MIOU |
第五层maxpooling之后新增加了Avgpooling | K3*3,s=1,p=1 | ||
VGG16中的FC6 | 1*1*4096全连接层 | (1024个K1*1,r=12,p=12,s=1的空洞卷积)+(relu)+(dropout) | |
VGG16中的FC7 | 1*1*4096全连接层 | (1024个K1*1,s=1的卷积)+(relu)+(dropout) | |
VGG16中的FC8 | 1*1*21全连接层 | (Num_class个K1*1,s=1的卷积) | |
上采样 | |||
- largeFOV(field of view)
在保证MeanIOU不下降的情况下,减少参数数量,以及加快模型训练速度(不会提升MeanIOU)。
网络配置的区别:
MaxPool层区别:largeFOV中的大小为3*3,s=2,padding=1的卷积核。 VGG网络中使用的是大小为2*2,s=2的卷积核
- MSc(multi scale)
融合了多尺度的featuremaps。包含输出层和前四个maxpooling层。
增加训练参数数量;增大训练时需要更大的GPU显存;降低训练速度;
文章学习思路很多参考了这位博主:太阳花的小绿豆(主页),图片也是采用了这位博主的。侵权删。谢谢。