CVPR 2019
Xuebin Qin, Zichen Zhang, Chenyang Huang, Chao Gao, Masood Dehghan, Martin Jagersand
论文地址
一、简介
提出了边界感知显著性目标检测网络(BASNet),它由Predict Module和RRM模块组成,Predict Module模块用于得到粗略的显著性图像,RRM用于克服“coarse”。
提出了一种新的混合损失,融合BCE,SSIM和IoU损失,分别针对pixel-level, patch-level和map-level。
二、BASNet
2.1 Predict Module
将Predict Module设计为一个编码-解码网络,因为这种体系结构能够同时捕获高级全局上下文信息和低级细节信息。
为了减少过拟合,每个解码器阶段的最后一层受ground truth监督。为实现每个解码器阶段输出显著性图作监督训练,使用上采样和sigmiod得到显著性图。
编码器与解码器之间添加桥接阶段以进一步捕获全局信息。
2.2 Refine Module
RM模块使用残差块的结构,增强了Predict Module输出的“粗糙(coarse)”的显著性图像。
coarse通常包含两个方面,一个是模糊嘈杂的边界,如fig3的(b);另一个是不均匀的区域概率,如fig3的(c)。
RRM_LC模块是最初提出用于边界改进的,然后他的感受野很小;RRM_MS模块使用不同大小的卷积来捕获多尺度上下文信息,但是由于模块很浅,很难捕获更高的细化信息。
为了在显著性图中优化区域和边界的缺点,我们提出了采用残差编码-解码结构的RRM模块,如Fig4的(c)。
2.3 Hybrid Loss
整体损失如下:
其中,通过对8个损失进行加权的操作。这8个损失有7个来自于prediction model的编码器输出,还有一个来自于通过RRM模块的最终输出结果。
对于每一个损失,都由BCE损失、SSIM损失和IoU损失三个部分组成,这旨在获得高质量的区域细分和明确的边界。
BCE损失表示如下:
SSIM损失最初提出用于图像质量评估,用于捕获图像中的结构信息。SSIM损失表示如下:
x是预测的像素集合,y是ground truth的像素集合。µ和σ分别表示均值和方差。C1和C2是为了避免除0。
IoU最初用来测量两个组的相似性,后来被用于目标检测和分割的标准评估度量。我们将其用于显著性目标检测,其表达式如下:
如Fig5所示,说明了每个损失的影响。
BCE损失是像素级的,重点关注前景与背景,为所有像素保持平滑的梯度,这有助于对所有像素融合。
SSIM损失是patch级的,其考虑每个像素的本地领域,它为边界分配了更高的权重,有助于模型关注边界信息。随着训练的进行,BCE损失变得很小的时候,SSIM损失可以确保仍有足够的梯度来推动学习。
IoU损失是map级的。该损失重点关注前景。
三、实验