Context Contrasted Feature and Gated Multi-scale Aggregation for Scene Segmentation

最新推荐文章于 2022-11-06 15:39:40 发布

枯叶蝶KYD

最新推荐文章于 2022-11-06 15:39:40 发布

阅读量2.1k

点赞数 1

本文链接：https://blog.csdn.net/u013548568/article/details/81070277

版权

Introduction

作者认为获得有判别力的语义特征以及多尺度融合是提升性能的关键，

本文提出一种新的创新性的语义对比特征，能够突出局部信息。
除此之外作者提出了新的gated sum来对每个位置选择性地融合多尺度的特征。gate在这里控制着不同尺度的信息流动

Segmentation Network

这个的语义框架是FCN网络，作者用skip layer来同和多尺度的特征。

CCL

语义信息对于整个的场景的分类是很重要的，DCNN已经能够产生足够好的语义信息了，但是这些语义特征更倾向于整个图像的抽象表达，对于场景分割来说是不合适的。

首先这些特征呢主要focus on the dominated object对于不合情理的物体不能保证丰富的语义。
在空间上分辨力不够

和物体分割相比，场景分割的物体间的关联更加丰富，不加选择的结合语义信息对于最终的预测是有害的，特别是有复杂的背景的时候。

这里写图片描述
在这图图像中，车辆是inconspicious物体在A的周围回收集丰富的语义信息和其他像素之间有着明显的区别，但是他并不能够得到全局的信息，例如车辆和道路，因此也就不能获得鲁棒的高水平特征。但是如果随意的去融合语义特征，车辆这里的特征很可能就被周围的人覆盖掉了，最终车辆的信息就会被忽略，从而使得最终的结果标错。而且不同位置的语义似乎倾向于主导特征的连续表示，因此对于A处很难搜集高水平的特征。为了解决这个问题，作者提出了CCL。怎么做的呢？
作者将局部信息的预测和语义特征分开，最后通过在这二者之间做contrast来融合二者。这样的话不仅仅能够利用有用的语义信息，而且能够将局部特征变成前景从而和语义形成对比的。
这里写图片描述
Gated sum用来动态选择不同level的context contrasted local features。CCL首先在每一个block生成context contrasted local features，也即第一排的context-local1,context-local2,…context-local6,首先在feature level融合特征，然后再score level融合特征。CCL主要想区分高水平的特征，CRF旨在低水平的特征

Gated sum

Gated sum主要是对于score map来讲的。对于不同尺度的score map进行融合的时候，每一个位置的不同尺度的score map的权重是不一样地去对待的。因此这里的门控其实就是这样的一个权重。为了获得们空的信息，作者设计skip-layer也即conv+sigmoid来从特征map上来提取信息的，信息map(information map)是HXW，和feature map是一样的大小。对于不同尺度的特征之间，为了构建不同尺度间的关联，作者用RNN来对information map进行序列建模（skip layer产生的是information map）。
这里写图片描述

首先利用 $F_p^n,n=1,..., N$ 来产生 $I_p^n$ ,其中N是level的个数， $F_p^n$ 是HXWX#C的大小，然而 $I_p^n$ 是HXWX1的大小。然后利用rnn结够预测除了N个 $I_p^n$ ，然后将这N个 $I_p^n$ concat在一起，形成 $H_p=(h_p^1,h_p^2,...,h_p^N)$ ,然后融合全局特征后形成
这里写图片描述
然后对每张图归一化形成

也就是最终的门控，用形成的门控map去对最终的score map做权重，也就是最终对score map做权重。、