DeepLabv3-学习记录

引入:本次学习内容基本来自于Liang-Chieh Chen,George Papandreou编写的的《Rethinking Atrous Convolution for Semantic Image Segmentation》,以及部分讲解视频,本学习记录仅为个人学习收获,部分内容存在纰漏烦请各位大佬批评指正。
(一)摘要:论文重新审视了用于语义图像分割的空洞卷积(Atrous Convolution)方法,并提出了一种改进的Atrous Spatial Pyramid Pooling(ASPP)方法,通过引入多尺度信息来提高分割性能。

(二)发表时间:2017

(三)关键词:图像分割,空洞卷积,ASSP

(四)学习记录:

在图像语义分割领域,主要面对两个挑战。第一个挑战是由于连续的池化操作或卷积步幅导致的特征分辨率降低,这使得DCNNs能够学习越来越抽象的特征表示。为了解决这个问题,作者使用空洞卷积,通过从最后几层中移除下采样操作并上采样相应的滤波器核,从而提取更密集的特征图,等效于在滤波器权重之间插入孔洞。示意图如下。

通过调整不同的膨胀率(rate)来实现。当膨胀率为1时,即为标准卷积操作。而当采用较大的膨胀率时,可以扩大模型的感受野,实现多尺度的对象编码。

另一个困难来自于图像中存在多个尺度的对象。考虑了四种解决方法。

第一种,对每个尺度的输入提取特征,不同尺度的对象在不同特征图上变得突出。

第二种,使用编码器和解码器完成分辨率的处理工作。

第三种,添加额外的模块,用于捕捉长距离信息。

第四种,采用空间金字塔池化,使用多个不同速率和有效感受野的滤波器或池化操作对输入特征图进行探测,从而捕捉不同尺度的对象。

在DeepLabv3中,作者加深了空洞卷积的结构。具体来说就是使用级联的空洞卷积设计模块。如下图所示。

操作步骤则是复制了几个最后一个的ResNet块(在图中标记为block4),并将它们排列成级联形式。这些块中有三个3×3的卷积操作,其中最后一个卷积操作中除了最后一个块以外都采用步长2,与原始的ResNet类似。

同时,对空洞空间卷积金字塔池化(ASSP)也进行了研究。相比于上一版本的ASSP,其在特征图的顶部应用了四个并行的具有不同空洞率的卷积操作。这次最新的ASSP中加入了批量归一化(BN)操作。

之所以这么做是因为作者发现随着采样率的增大,有效滤波器权重的数量(即应用于有效特征区域而不是填充零的权重)变得更少。当3×3的滤波器应用于65×65的特征图时,当速率值接近特征图大小时,在极端情况下,3×3的滤波器不再捕捉整个图像上下文,而变成了一个简单的1×1的滤波器,因为只有滤波器中心的权重有效。

具体操作就是在模型的最后一个特征图上应用全局平均池化,将结果作为图像级特征输入到一个1×1的卷积层中,然后通过双线性插值将特征上采样到所需的空间尺寸。

最终的改动就是针对output_stride=16的情况,使用了一个1×1的卷积层和三个3×3的卷积层,采样率为(6,12,18)。值得注意的是,当输出步长为8时候,采样率会翻倍。同时,特征图像会做全剧平均池化,卷积,以及concat操作。示意图如下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值