deeplabv2

前置知识

deeplabv1
spp

3个贡献

1,使用了空洞卷积
The repeated combination of max-pooling and striding at consecutive layers of these networks reduces significantly the spatial resolution of the resulting feature maps, typically by a factor of 32 across each direction in recent DCNNs.
A partial remedy is to use “deconvolutional” layers, which however requires additional memory and time.
Atrous convolution allows us to compute the responses of any layer at any desirable resolution without increasing the number of parameters or the amount of computation.
Besides, it also allows us to arbitrarily enlarge the field-of -view of filters at any DCNN layer, which offers an efficient mechanism to control the field-of-view and finds the best trade-off between accurate localization(small field-of-view) and context assimilation(large field-of-view).
(1)池化和带striding的卷积的组合重复地使用会大大地减少空间的分辨率。
(2)可以使用转置卷积来解决空间分辨率丢失的问题,但需要额外的内存和时间。
(3)空洞卷积在不需要额外的参数量和计算量的情况下可以获得任意你想要的分辨率。
(4)它也可以随意地扩大感受野,这样可以控制感受野的大小,可以在对需要准确位置的小感受野和需要大感受野的背景中做取舍。

2,设计并使用了ASPP
aspp 里的conv用的是atros conv(空洞卷积)。rate不同。kernel size相同。
spp里用的是pooling。kernel size不同。
关于输出,aspp的论文有讲"The features extracted for each sampling rate are further processed
in separate branches and fused to generate the final result.",所以输出是每个conv的结果的各自输出后做进一步处理和融合后的结果。
spp的输出是k*M维度的向量,k是最后conv层的filter数(num of output_channels),M是bin数。
aspp
ASPP for VGG-16 employs several parallel fc6-fc7-fc8 branches.
They all use 3×3 kernels but different atrous rates r in the ‘fc6’ in order to capture objects of different size.
deeplab_aspp

3,DCNNs和FC CRF结合进行分割
deeplabv1里有介绍

补充

1,学习率使用了 poly learning rate策略,公式是(1-iter/max_iter)^power,power=0.9,表现比step learning rate 策略多出了1.17%。step learning rate 指的是reduce the learning rate at a fixed step size,learning rate 的下降是以固定的步伐下降的。
2,相比于v1的使用的是vgg,当前的v2使用的是resnet。

跟v1的不同

1,ResNet
2,ASPP
3,Learing Rate Policy

Ref

DeepLab: Semantic Image Segmentation with
Deep Convolutional Nets, Atrous Convolution,
and Fully Connected CRFs Liang-Chieh Chen etc.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DeeplabV2是一种用于语义分割任务的深度学习模型,它是Deeplab系列模型的第二个版本。语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素分类为不同的语义类别。 DeeplabV2采用了全卷积网络(FCN)的思想,通过将传统的卷积神经网络(CNN)转换为全卷积结构,实现了对整个图像进行像素级别的预测。与其他语义分割模型相比,DeeplabV2具有以下几个关键特点: 1. 空洞卷积(Atrous Convolution):DeeplabV2引入了空洞卷积来扩大感受野,以便更好地捕捉图像中的上下文信息。通过在卷积层中引入空洞率参数,可以在不增加计算量的情况下增加感受野大小。 2. 多尺度融合:为了处理不同尺度的物体和细节,DeeplabV2使用了多尺度融合策略。它通过在不同尺度下对特征图进行卷积和上采样操作,将不同尺度的特征进行融合,从而提高了语义分割的准确性。 3. 空间金字塔池化(Spatial Pyramid Pooling):为了更好地处理不同大小的物体,DeeplabV2引入了空间金字塔池化模块。该模块可以在不同尺度下对特征图进行池化操作,从而捕捉到不同大小的物体的语义信息。 4. 权重重叠损失(Weighted Overlap Loss):为了解决类别不平衡问题,DeeplabV2使用了权重重叠损失来平衡不同类别的像素权重。通过调整损失函数中不同类别的权重,可以使得模型更加关注少数类别的像素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值