[CVPR2019]Cascaded Partial Decoder for Fast and Accurate Salient Object Detection

最新推荐文章于 2022-10-20 16:14:02 发布

bananalone

最新推荐文章于 2022-10-20 16:14:02 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：网络计算机视觉

本文链接：https://blog.csdn.net/bananalone/article/details/106881181

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

论文地址：Cascaded Partial Decoder for Fast and Accurate Salient Object Detection

代码地址：https://github.com/wuzhe71/CPD

介绍

编码器-解码器结构的网络被大量应用于显著性目标检测，并获得了惊人的表现，编码器是预先训练好的图像分类模型（如VGG和ResNet），它提供了多层次的深层特征：低分辨率的高层特征表示语义信息，高分辨率的底层特征表示空间细节，在解码器中，这些特征被组合起来以生成精确的显著性映射。但这种方法存在两个缺点：
在这里插入图片描述

与高级特征相比，低级特征对网络性能贡献小，图1(a)
使用高分辨率的低级特征明显加大了计算复杂度，图1(b)

在这里插入图片描述
深度聚集模型可以在只集成深层特征的情况下恢复显著图的空间细节，图2。此外，特征图中的背景区域可能会导致显著性图的不精确性。由于融合较深层的特征会产生相对精确的显著性图，所以可以直接使用该图来细化特征。

文本作者提出了一种新的级联部分译码框架，该框架摒弃了较浅层的特征以保证较高的计算效率，然后对较深层的特征进行细化以提高其表示能力。

框架

在这里插入图片描述

构造

图3(a)是传统编码器-解码器结构框架，图3(b)是提出的级联部分译码器框架。明显的区别是传统框架将每一层都进行了跨连，而本文提出的框架只跨连了网络的后三层，并分为了两个分支。
损失函数如下：
在这里插入图片描述
其中， $L_{ce}$ 是 $s i g m o i d$ 交叉熵损失：

整体注意力模块

在这里插入图片描述
其中：

$Conv_g$ 是一个带有高斯核 $k$ 和 $0$ 偏差的卷积运算
$f_{min-max}(·)$ 是使模糊图范围在 $[0, 1]$ 内的标准化函数
$M A X (\cdot)$ 是最大函数，倾向于增加 $S_i$ 显著区域的权重系数

解码器

受receptive field block（RFB）的启发，上下文模块由四个分支 { $b_m , m = 1, ..., 4$ } 组成，每个分支用 $1\times1$ 卷积降低通道数到32，对于{ $b_m, m>4$ }，我们添加了两个层：一个 $(2m-1)\times (2m-1)$ 卷积层和一个 $3\times3$ 卷积层 $(2 m - 1)$ 伸缩，我们将这些分支的输出串联起来，并通过额外的 $1\times1$ 卷积层将通道数减少到32。然后添加一个短连接作为原始RFB。
对于最顶层特征 $(i = L)$ ，设置 $f_{L}^{c_2}=f_{L}^{c_1}$ ，其他特征 { $f_{i}^{c_1}, i<L$ }，用下式更新：
在这里插入图片描述
其中：

$U p (\cdot)$ 是用因子 $2^{k-j}$ 上采样特征
$C o n v$ 是 $\times 3$ 卷积

实验

在这里插入图片描述

bananalone

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[CVPR2019]Cascaded Partial Decoder for Fast and Accurate Salient Object Detection

论文地址：Cascaded Partial Decoder for Fast and Accurate Salient Object Detection代码地址：https://github.com/wuzhe71/CPD快速准确检测显著目标的级联部分译码器介绍框架介绍编码器-解码器结构的网络被大量应用于显著性目标检测，并获得了惊人的表现，编码器是预先训练好的图像分类模型（如VGG和ResNet），它提供了多层次的深层特征：低分辨率的高层特征表示语义信息，高分辨率的底层特征表示空间细节，在解码.
复制链接

扫一扫