论文地址:Cascaded Partial Decoder for Fast and Accurate Salient Object Detection
代码地址:https://github.com/wuzhe71/CPD
介绍
编码器-解码器结构的网络被大量应用于显著性目标检测,并获得了惊人的表现,编码器是预先训练好的图像分类模型(如VGG和ResNet),它提供了多层次的深层特征:低分辨率的高层特征表示语义信息,高分辨率的底层特征表示空间细节,在解码器中,这些特征被组合起来以生成精确的显著性映射。但这种方法存在两个缺点:
- 与高级特征相比,低级特征对网络性能贡献小,图1(a)
- 使用高分辨率的低级特征明显加大了计算复杂度,图1(b)
深度聚集模型可以在只集成深层特征的情况下恢复显著图的空间细节,图2。此外,特征图中的背景区域可能会导致显著性图的不精确性。由于融合较深层的特征会产生相对精确的显著性图,所以可以直接使用该图来细化特征。
文本作者提出了一种新的级联部分译码框架,该框架摒弃了较浅层的特征以保证较高的计算效率,然后对较深层的特征进行细化以提高其表示能力。
框架
构造
图3(a)是传统编码器-解码器结构框架,图3(b)是提出的级联部分译码器框架。明显的区别是传统框架将每一层都进行了跨连,而本文提出的框架只跨连了网络的后三层,并分为了两个分支。
损失函数如下:
其中,
L
c
e
L_{ce}
Lce 是
s
i
g
m
o
i
d
sigmoid
sigmoid 交叉熵损失:
整体注意力模块
其中 :
- C o n v g Conv_g Convg 是一个带有高斯核 k k k 和 0 0 0 偏差的卷积运算
- f m i n − m a x ( ⋅ ) f_{min-max}(·) fmin−max(⋅) 是使模糊图范围在 [ 0 , 1 ] [0,1] [0,1]内的标准化函数
- M A X ( ⋅ ) MAX(·) MAX(⋅)是最大函数,倾向于增加 S i S_i Si 显著区域的权重系数
解码器
受receptive field block(RFB)的启发,上下文模块由四个分支 {
b
m
,
m
=
1
,
.
.
.
,
4
b_m , m = 1, ..., 4
bm,m=1,...,4} 组成,每个分支用
1
×
1
1\times1
1×1 卷积降低通道数到32,对于{
b
m
,
m
>
4
b_m, m>4
bm,m>4 },我们添加了两个层:一个
(
2
m
−
1
)
×
(
2
m
−
1
)
(2m-1)\times (2m-1)
(2m−1)×(2m−1) 卷积层和一个
3
×
3
3\times3
3×3 卷积层
(
2
m
−
1
)
(2m-1)
(2m−1) 伸缩,我们将这些分支的输出串联起来,并通过额外的
1
×
1
1\times1
1×1 卷积层将通道数减少到32。然后添加一个短连接作为原始RFB。
对于最顶层特征
(
i
=
L
)
(i = L)
(i=L),设置
f
L
c
2
=
f
L
c
1
f_{L}^{c_2}=f_{L}^{c_1}
fLc2=fLc1,其他特征 {
f
i
c
1
,
i
<
L
f_{i}^{c_1}, i<L
fic1,i<L},用下式更新:
其中:
- U p ( ⋅ ) Up(·) Up(⋅) 是用因子 2 k − j 2^{k-j} 2k−j上采样特征
- C o n v Conv Conv 是 3 × 3 3 \times 3 3×3 卷积
实验