P7.DeepLabV2网络简介
1.前言
Deeplab:Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 2016 CVPR
https://arxiv.org/abs/1606.00915
换了backbone——ResNet
引入了一个新的结构——ASPP
DCNNs应用在语义分割任务中的问题
分辨率被降低(主要由于下采样stride>1的层导致)
目标的多尺度问题
DCNNs的不变性(invariance)会降低定位精度
网络优势
速度更快
准确率更高(当时的state-of-art)
模型结构简单,还是DCNNs和CRFs联级
2.ASPP(atrous spatial pyramid pooling)ASPP-L
Input Feature Map——通过backbone输出得到的feature map
并联四个分支,针对每个分支都会采用1个3x3大小的膨胀卷积,每个分支的膨胀系数不同,所以每个分支的感受野不同
将四个分支的结果进行融合,使得DeepLabv2具有解决多尺度的能力
3.消融实验
MSC多尺度方法:将输入的图片分别缩放到0.5倍、0.75倍、1倍,将这三个不同尺度的图片输入到网络进行正向传播,就能得到每一个尺度对应的score maps,将这三个score maps进行融合(针对每一个pixel取最大值)
COCO在COCO数据集上进行训练
Aug对数据进行增广:对输入的图片在0.5倍到1.5倍进行随机缩放
LargeFOV
ASPP
CRF
VGG-16 -> ResNet-101
4.学习率的变化策略(Learning rate policy)
lr——初始学习率
iter——当前训练的步数
max_iter——整个训练过程中所需迭代的步数
power——参数,power=0.9