文章目录
这篇文章是2020年PATTERN RECOGNITION期刊的文章,标题直译为 基于内容感知指导的显著性目标检测。
论文地址
代码地址
1 简介
1.1 目前显著性检测存在的问题:
在复杂场景下,检测效果差,包括:
- 非显著区域有类似显著区域的外观(第一行图片里的石头);
- 显著物体可能有不同外观的区域(第二行图片里的袜子)。
1.2 本文贡献:
-
提出了Feature Fuide Network
- 使前景和背景区域更加可区分,抑制具有“显著样”外观的非显著区域;
- 检测具有不同外观区域的显著物体。
-
提出了Multi-scale Feature Extraction Module。
-
设计了新的损失函数
2 网络结构
整个网络由三个部分组成:
- 用来提取多尺度上下文信息的Feature Extraction Network;
- Feature Guide Network利用低层特征的空间细节和高层特征的语义信息对提取的特征进行指导;
- Feature Fusion Network有效地融合被指导的特征,生成显著性图。
2.1 Feature Extraction Network
特征提取网络包含一个预训练的backbone和多尺度特征提取模块(Multi-scale Feature Extraction Modules,MFEMs)。
2.1.1 Multi-scale Feature Extraction Module
在不同的图像中,显著性目标在尺度和位置上有较大的变化。由于尺度的可变性,使用单一尺度的卷积可能无法获得正确的尺度。此外,由于位置的可变性,使用金字塔池化(Pyramid pooling)作为多尺度特征提取器,由于池化的尺度过大,会导致重要的局部信息丢失。另一种方法,空洞卷积通过在卷积核中插入“孔”来扩大感受野,则会由于稀疏连接导致局部信息丢失,也被称为“网格效应”(grid issue)。
这里简单介绍下Global Convolutional Network(GCN,论文地址)。一些理解可以看这一篇博客https://blog.csdn.net/zym19941119/article/details/81129312。GCN可以解决网格效应问题,通过densely connections来获取多尺度上下文信息。
2.2 Feature Guide Network
在特征提取网络中,使用了4个MFEMs在四个不同层次上提取多尺度特征。高层的特征由于更大的感受野拥有语义和全局信息。因此,这些特征有助于图像区域的类别识别(分类)。由于视野较小,低层特征具有空间和局部信息。因此,低层特征信息有助于更好地定位显著区域。
这里提出了特征指导网络来更好地利用不同层次的识别能力。它包含低层指导分支和高层指导分支。
简单说就是将低层特征和高层特征上采样后联接在一起。
然后在高层分支中,使用1*1卷积,产生空间权重与原来的高层特征进行相乘,引入了低层的空间信息。在低层分支中,使用了Channel Attention Block的其中一条分支(关于CAB,可以参考这篇博客),生成了通道权重。
2.3 Feature Fusion Network
这里将相同大小的特征图使用add操作进行联结,然后再加上Residual Refinement Module (RRM)。在残差块中加入了空间注意力分支。
2.4 loss function
L = α 1 L p + α 2 L R + α 3 L M A E L = \alpha_1 L_p + \alpha_2 L_R + \alpha_3 L_{MAE} L=α1Lp+α2LR+α3LMAE
前两个损失项是类似Precision和Recall的损失函数。文中也没有任何有关设计这个损失函数motivation的解释。