DeepLabv1网络记录

yzZ_here

已于 2022-03-10 14:21:44 修改

阅读量2.5k

点赞数

文章标签： cnn 深度学习图像处理计算机视觉神经网络

于 2022-03-06 21:02:44 首次发布

本文链接：https://blog.csdn.net/qq_39333636/article/details/123317325

版权

相关博文：

DeepLabv2

DeepLabv3

DeepLabv1

面临的问题

下采样导致图像分辨率降低

解决方法：膨胀卷积和改变maxpooling

2、空间不敏感

解决方法：Fully connected CRF（conditional random field条件随机场）

平移不变性：深度卷积神经网络在高级视觉研究领域取得了突破。其卷积和池化操作保证了其不变性，能够提取高级抽象特征。不变性指的是平移不变性，卷积层扩大感知野，池化层的pooling操作，即使图像有小的位移、缩放、扭曲等，提取到的特征依然会保持不变，减小了相对空间位置的影响。这在高级特征提取中作用重大，但在一些低级视觉研究，如语义分割和姿态估计任务中效果是不理想的。我们希望获取具体的空间信息，而这些信息随着网络的加深慢慢丢失掉。

原文链接：https://blog.csdn.net/longxinghaofeng/article/details/85258124

网络优势
1. 速度更快，文中提到使用了膨胀卷积加速计算，但是fully connected CRFs比较费时间。
2. 准确率更高，相比之前最好的网络提升了7.2个百分点

模型结构简单，主要由DCNNs和CRFs联级构成。

作者为了加载预先在ImageNet训练好的VGG-16模型，并保证图片仅缩放了8倍做了如下修改：

修改位置	修改前	修改后	备注
所有VGG16的maxpooling层	窗口大小2X2，步距2，	窗口3X3，
VGG16中第4、5层maxpooling层	步距为2	步距为1	获得更多的稠密图，图像只缩小了8倍
VGG16中的第五层卷积层	K3*3 ，s=1的卷积核	K3*3,s=1，p=1，r=2的空洞卷积	扩大感受野，提高MIOU
第五层maxpooling之后新增加了Avgpooling		K3*3,s=1,p=1
VGG16中的FC6	114096全连接层	（1024个K1*1,r=12,p=12，s=1的空洞卷积）+（relu）+（dropout）
VGG16中的FC7	114096全连接层	（1024个K1*1,s=1的卷积）+（relu）+（dropout）
VGG16中的FC8	1121全连接层	（Num_class个K1*1,s=1的卷积）
上采样

largeFOV（field of view）

在保证MeanIOU不下降的情况下，减少参数数量，以及加快模型训练速度（不会提升MeanIOU）。

网络配置的区别：

MaxPool层区别：largeFOV中的大小为3*3，s=2，padding=1的卷积核。 VGG网络中使用的是大小为2*2，s=2的卷积核

MSc（multi scale）

融合了多尺度的featuremaps。包含输出层和前四个maxpooling层。

增加训练参数数量；增大训练时需要更大的GPU显存；降低训练速度；

文章学习思路很多参考了这位博主：太阳花的小绿豆（主页），图片也是采用了这位博主的。侵权删。谢谢。

yzZ_here

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DeepLabv1网络记录

DeepLabv1面临的问题下采样导致图像分辨率降低解决方法：膨胀卷积和改变maxpooling2、空间不敏感解决方法：Fully connected CRF（conditional random field条件随机场）平移不变性：深度卷积神经网络在高级视觉研究领域取得了突破。其卷积和池化操作保证了其不变性，能够提取高级抽象特征。不变性指的是平移不变性，卷积层扩大感知野，池化层的pooling操作，即使图像有小的位移、缩放、扭曲等，提取到的特征依然会保持不变，减小了相对空间位置...
复制链接

扫一扫