论文笔记-DRFNet:Looking for the Detail and Context Devils: High-Resolution Salient Object Detection

摘要

近年来,显着目标检测(SOD)在大规模基准和深度学习技术的成就中取得了巨大成功。然而,现有的SOD方法主要关注具有低分辨率的自然图像,例如400×400或更小。这个缺点阻碍了它们用于需要高分辨率,细节感知结果的高级实际应用。此外,缺乏显著对象的边界细节和语义上下文也是准确SOD的关键问题。为了解决这些问题,在这项工作中,我们专注于高分辨率显着对象检测(HRSOD)任务。从技术上讲,我们提出了第一个用于全自动HRSOD的端到端可学习框架,称为双细化网络(DRFNet)。更具体地说,所提出的DRFNet由共享特征提取器和两个有效的细化头组成。通过解耦细节和上下文信息,一个细化头采用全局感知特征金字塔。在不增加太多计算负担的情况下,它可以增强空间细节信息,缩小高级语义和低级细节之间的差距。同时,另一个细化头采用混合扩张卷积块和分组上采样,这在提取上下文信息方面非常有效。基于双重细化,我们的方法可以扩大感受野并从高分辨率图像中获得更多的判别特征。高分辨率基准(公共DUT-HRSOD和拟议的DAVIS-SOD)的实验结果表明,我们的方法不仅有效,而且比其他现有技术更准确。此外,我们的方法在典型的低分辨率基准上得到了很好的概括。

现存问题

目前的SOD方法主要集中在低分辨率图像上,缺乏对高分辨率的模型适应。此外,由于计算量大,以前的方法不能直接用于高分辨率图像。因此,高分辨率图像中的SOD已成为迫切需求。

主要贡献

1.我们提出了一种端到端可学习的框架,即DRFNet,以增强全自动HRSOD的特征表示和计算效率。据我们所知,我们的工作是HRSOD的第一个端到端模型。
2.我们对高分辨率图像采用双重优化头。一个细化头采用全局感知特征金字塔,缩小了高级语义和低级细节之间的差距。而另一个负责有效地提取上下文信息以实现语义一致性。
3.大量实验表明,我们的方法在高分辨率数据集(我们提出的DA VIS-SOD)和大规模低分辨率数据集(DUTS,DUT-OMRON,HKU-IS)。

DUAL REFINEMENT NETWORK(双重细化网络)

我们首先描述共享特征提取器。然后我们详细说明两个改进头,以实现更好的性能。接下来,我们演示如何将精细功能与引导功能提升相结合。最后,我们描述了完整的结构。

Shared Feature Extractor(共享特征提取器)

与大型特征提取器相比,一些工作已经证明了轻型模型对于像素方式标记任务的有效性。受他们的启发,我们采用修改后的VGG-16和ResNet-18模型作为共享特征提取器,这些提取器是相当轻的网络。特征提取器通常会生成多尺度特征映射,这些映射保留了丰富的对象详细信息和大的上下文信息。然而,由于重复的下采样阶段和高内存需求,具有这些特征的预测是平滑的或限于低分辨率。因此,我们设计了更有效的机制来解决这些问题。

Detail Refinement Head(细节细化头)

大多数现有的SOD方法利用低分辨率图像或轻质模型进行显着性图推断。然而,调整大小的低分辨率图像不可避免地会丢失高分辨率图像的空间细节,而轻质模型会以极端的下采样破坏空间信息。基于这些观察,我们提出了一个细节细化头(DRH)来恢复高分辨率图像的空间细节并编码丰富的空间信息。从技术上讲,DRH包含三个关键块。

  • 卷积特征减少块(CFRB):该块旨在缩小多尺度深度特征的维数。实质上,CFRB是一个1×1卷积层,然后BN和ReLU。为了减少高分辨率图像的计算和内存需求,卷积滤波器的数量设置为32。
  • 深度特征上采样块(DFUB):众所周知,特征映射的每个通道都包含关于不同语义对象类的特定语义信息。同时,在特征提取器的每个阶段,空间尺寸减小了一半。为了确保相同的分辨率并保留语义信息,我们提出了深度特征上采样块(DFUB),其灵感来自深度卷积。具体而言,如果特征图具有C个通道,我们将采用具有C个组的反卷积层进行上采样。通过适当的上采样率,可以放大较深层的输出特征以匹配较浅层产生的特征。此外,与传统的反卷积和插值相比,它也大大减少了计算。
  • 全局感知特征交互块(GFIB):由于感受野有限,来自特征提取器的特征映射无法捕获全局信息。为了增强表示能力,我们求助于由GFIB生成的全局感知特征。如下图。
    在这里插入图片描述
    在这里插入图片描述

Context Refinement Head(上下文细化头)

在大多数像素方式的标记任务中,网络的足够感受野对于性能改进非常重要。为了扩大感受野,一些方法利用了堆叠或金字塔结构。然而,它们有两个明显的缺点:1)它们对计算要求高,内存消耗大,不适合高分辨率图像。2) 他们缺乏捕获足够多尺度本地上下文信息的能力,导致不显眼对象的准确性差。基于这些考虑,我们提出了上下文细化头(CRH)来捕获各种级别的上下文。更具体地说,它由混合空洞卷积块和分组上采样组成。

  • Hybrid Dilation Convolutional Block (HDCB)

在这里插入图片描述
所提出的HDCB可以被看作是通过对某些网格补丁的内容应用非线性来本地聚合输入特征。我们提出的HDCB的输出大小等于输入大小。因此,它显着减少了存储空间,有利于高分辨率图像。我们注意到HDCB模块确实受到DeepLabV3的ASPP模块的启发。但是,我们的目标是捕获大量的上下文信息并保持效率。因此,我们引入像素方式的注意力来选择与任务相关的比例。这与以前的工作非常不同,后者仅将上下文特征与不同的扩展率连接起来。我们的HDCB基本上是一种用于特征选择的混合方法。

  • Group-Wise Upsampling:
    我们应用HDCB来生成五个比例的上下文特征。然后我们可以将HDCBs之后的上下文功能用作最终的上下文功能。但是,我们需要确保它们在连接之前具有相同的分辨率。受的启发,我们提出了一种分组上采样结构,对于高分辨率图像,其计算成本可以忽略不计。具体而言,不是使用插值操作,而是将具有不同上采样率(1、2、4、8、16)的反卷积交替应用于五个比例特征。为了保持较低的计算量,我们为每个反卷积添加一个组号,并将输出数设置为32。所提出的逐组上采样不仅提高了参数计算和存储空间中的模型效率,而且还保持了来自比例选择上下文的感受野。

Guided Feature Boosting(引导功能增强)

本质上,来自两个细化头的特征在抽象层次上是不同的。DRH的特征编码低级细节信息,而CRH的特征编码高级上下文信息。因此,简单地总结或连接这些功能并不是一种明智的方法。
在这里插入图片描述

Complete Network Design(完整网络设计)

对于HRSOD,应考虑三个方面,即减少计算量、突出对象细节和增加接受域。为了实现这些目标,我们提出了以下技术。1)改进的VGG/ResNet-18和CFRB用于减少计算量;2)DRH用于逐步恢复高分辨率图像的空间细节;3)CRH用于捕获足够的多尺度局部上下文信息。在上述模块的基础上,我们提出了用于HRSOD的DRFNet,如图3所示。该特征提取器基于一个经过ImageNet预先训练的轻量级体系结构。
在多尺度特征的基础上,分别采用CRH和DRH对空间上下文和对象细节进行细化。CRH中的术语“Context-I”是对应的HDCB的输出。HDCB采用CFRB的输出,而CFRB仅用于降低主干特征的维数。为了融合这些特征,我们增加了一个GFB模块,它在高层的指导下集成了多源的特征地图。在增强特征的基础上,通过sigmoid函数后得到最终的显著图。
在这里插入图片描述

Loss Function

在本文中,我们利用加权交叉熵损失函数来监督我们提出的模型的训练。此外,在GFB中,我们使用三个损失条件(一个主要损失和两个辅助损失)来监督培训。一个损失加到图6的最终预测上。两个辅助损失分别加到CRH和DRH的预测上。所有的损失函数都是加权的交叉熵损失。为简化起见,我们对主损失和辅助损失采用相同的权重。

实验

Datasets

为了在运动场景中对这些方法进行评估,我们建立了一个新的高分辨率基准,称为DA VIS-SOD。它包含950幅1920×1080分辨率的密集标注图像,适用于HRSOD。还在DUTS、DUT OMRON和HKU-IS这三个广泛使用的低分辨率基准上对我们的方法进行了评估。
在这里插入图片描述

Evaluation Metrics

F-measure、 S-measure、MAE

Implementation Details

devices:Inteli4790CPU和NVIDIA Titan X GPU(12G内存)。
input size: 1280×1280×3 (高分辨率) or 384 × 384×3 (低分辨率)
数据增强:翻转和裁剪
权重初始化:“MSRA”方法
batch size :1
优化器:SGD(momentum 0.9, weight decay 0.0005.)
学习率:1e−8 并且学习速率在每10个周期后以0.1的速率指数衰减。
epochs: 32

Ablation Studies(消融实验)

在这里插入图片描述
在这里插入图片描述
GFB−表示为只有一次loss的模型。
在这里插入图片描述
“−∞”表示模型在内存有限的情况下无法处理特定分辨率的图像。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

在这项工作中,我们认识到显著对象的细节和上下文在高分辨率SOD中起着重要作用。为了解决这些问题,我们提出了一种新颖高效的HRSOD框架(DRFNet)。我们提出的模型可以有效地提取细粒度信息和捕捉远程上下文,这有利于增强空间细节和对象语义。此外,我们还构建了一个新的HRSOD评价数据集。在高分辨率和低分辨率数据集上的实验结果都清楚地证明了该方法的有效性和高效性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值