显著性目标检测matlab代码_【论文综述】初探显著性目标检测

写在开头:

这篇综述最开始写在2019年刚接触显著性目标检测之时,现在整理重发,留个位置,为以后回顾做一定的参照。因为是初探,许多观点都还不够成熟,涉及的方法也大多是18年以前,对于19年新发表的论文和普遍受关注的问题会另外开一篇文章做探讨,谢谢大家~

关于更专业更详实的显著性综述我个人推荐以下两篇:

Salient Object Detection : A Survey

这篇综述写在2018年,从传统方法到深度学习方法的显著性检测均有总结归纳,可以很清楚地看到显著性目标检测从起源到深度学习时代的发展历程

Salient Object Detection in the Deep Learning Era : An In-Depth Survey

相比起上一篇,这一篇综述主要探讨深度学习时代的显著性检测。文章按照设计种类对显著性目标检测模型进行归纳,结构上很清晰

以下正文。


1.以传统方法进行显著性目标检测

自1998年ltti L等人发表[1]之后,显著性目标检测研究开始受到广泛关注。显著性目标检测旨在从输入图像上识别出最引人注目的对象,换而言之也可以说,这些研究希望能够识别出图像的主体。从1998年发展至今,以2014年为界,显著性目标检测大约可以划分为传统方法与深度学习方法两个时代。

受[1]中对人眼机制的探讨以及提出的显著性物体特征(颜色鲜明,对比强烈,方向差异)启发,过去二十年中,大量显著性物体检测方法被提出,显著性目标检测被广泛定义为从图像中捕捉稀有、独一无二元素的问题。它们中的大部分首先从图像中分辨出显著子集(计算显著性图),然后将这些显著子集合并以分割出完整的显著对象。总地来说,传统的显著性物体检测方法可依据使用视觉子集的种类或使用特征分为不同的两类:①使用基于块(block-based)的视觉子集或基于区域(region-based)的视觉子集②只使用图像本身提供的内部线索(intrinsic cues)或引入用户注释等外部线索(extrinsic cues)。基于以上两种分类,传统显著性物体检测方法可被划分为以下三种:

(1)使用图像内部线索的基于块的检测模型:在显著性物体检测的早期工作中,元素的唯一性通常被等同于像素级的中心环绕对比度,如[2]。在[3]中,广义主成分分析(GPCA)使用线性子空间方法取代实际分割图像,并通过测量特征对比值与区域几何属性来选择显著区域。[4]则采用频率调整方法来计算全分辨率显著图,其中元素x的显著值被计算为中心元素值与高斯模糊输入图像上x的元素值之差的平方。

(2)使用图像内部线索的基于区域的检测模型:这种类型的显著性模型从以不同方法(如Mean-Shift、Turbopixels、SLIC等)产生的图像区域中得到图像内部线索,用于显著图像的生成。如[5]中介绍了一种通过测量目标区域相对于所有其他图像区域的全局对比度的基于区域的显著性算法,它将图像分为多个区域,每个区域的显著度等于它与其余所有区域的对比值与权重值的乘积之和。

(3)引入图像外部线索的检测模型:此类型的显著性模型不单使用来自图像本身的信息来判断显著性物体,同时引入诸如来自训练集的正确标注(groundtruth)、视频序列、相似图像等来使判断结果更为准确。以相似图像为例,明显可见的是,如果能够获得大批量数据集,则基于相似图像的显著性检测效果将得到改善。但由于当前显著性图像数据集的稀缺性,这一想法还过于理想化。为了缓解这种情况,一些方法利用了未注释的相似图像,如[6]的方法提出相似图像将提供对背景区域的良好近似,即使每张图像的显著区域可能并不接近,但分辨出背景区域亦即分辨出了显著区域。

总的来说,传统方法使用大量的显著性先验信息进行图像显著性检测,主要依赖于手工制作的特征(hand-crafted features),而这些特征(1)可能无法描述复杂的图像场景和对象结构(2)无法适应新的场景与对象,泛化能力差,因此导致基于传统方法的显著性检测陷入瓶颈。

2.以深度学习方法进行显著性目标检测

虽然手制特征允许传统显著性目标检测方法实时进行检测,但这些方法的缺点限制了它们在复杂场景下进行显著性目标检测的能力。与此同时,卷积神经网络在不同图像任务中的广泛应用(如目标检测、语义分割、边缘检测等)为显著性目标检测提供了新的思路,并在一些工作(如:[7],[8])中展现出令人惊喜的效果提升。由于其多级和多尺度特征,CNN能够在不使用任何先验知识的情况下准确地捕获最显着的区域。此外,即使存在阴影或反射,多级特征也允许CNN更好地定位检测到的突出区域的边界。由于这些优越性,基于CNN的显著性目标检测方法在几乎所有现有数据集上刷新历史记录,成为显著性目标检测中的主流方法。

基于深度学习的显著性目标检测方法又可以分为两类,第一类模型使用多层感知机(MLPs)来进行显著性目标检测,第二类模型则使用完全卷积神经网络(FCN)来进行显著性目标检测。在第一类模型中,输入图像通常被过度成单个或多尺度的小区域,然后将CNN用于提取图像中的高级特征,该高级特征随后被反馈回MLP以确定每个小区域的显着性值。与完全卷积神经网络方法不同的是,第一类模型虽然使用CNN提取高级特征,但由于MLP的使用,CNN所提取的特征中的空间信息并不能被保留。而第二类基于完全卷积神经网络(FCN-based)的模型则首先在[9]中被开创性地提出,被用于解决语义分割问题。由于显着对象检测本质上是一种分割任务,因此许多研究人员采用基于FCN的体系结构,因为它们具有保存空间信息的能力。

本章节将介绍以上两类模型,并重点对近年来采用完全卷积神经网络的显著性目标检测方法进行介绍,有关传统卷积神经网络模型与早期完全卷积神经网络模型的更详细内容,可参阅Cheng等人[10]的工作。

2.1 传统卷积神经网络方法

早期的卷积神经网络显著性目标检测方法中,许多工作者通过结合局部信息和全局信息,来克服基于局部的模型中突出对象边界而不突出对象整体,基于全局的模型中无法保留对象细节,难以检测具有大尺寸和复杂纹理的显着物体的缺陷。Wang等人[7]考虑了这两种信息,使用两个子网络来分别进行局部估计与全局搜索。在局部估计阶段,该模型将原始像素作为输入,通过训练名为DNN-L的神经网络,考虑其局部上下文为每个像素分配局部显着性值,并学习局部图像块的对比度,纹理和形状信息。而在全局搜索阶段,模型使用包含全局颜色对比度,几何信息以及由DNN-L估计的局部显着性度量的特征向量来训练另一个深度神经网络DNN-G,以从全局角度预测每个对象候选区域的显着性值。

Zhao等人[8]同样通过设计具有全局与局部上下文的深度模型来捕获对象显着性。其中,基于CNN的深度全局上下文建模部分以超像素为中心的窗口填充平均像素值,用于模拟完整图像中的显着性,而局部上下文建模则在更近焦点的超像素中心窗口上进行,用于精细区域中的显着性预测。除此之外,文章还探索不同预训练策略的影响,并引入任务特定的预训练方案,以使用ImageNet图像分类数据集预训练深度模型。

Li等人[11]提出的模型则将嵌套窗口中提取的多尺度CNN特征与具有多个完全连接层的深度神经网络结合,将图像分为考虑区域,紧邻区域以及全图三个区域,对分割出的三个不同图像使用相同的CNN进行特征提取,而后进行整合。

Liu等人[12]将整个图像作为输入和输出显着图,从全局到局部,从粗略到精细对显著性目标进行分层检测。文中使用一种端到端显着性检测模型DHSNet,同时学习强大的特征表示,信息显着性提示,以及来自全局视图的最佳组合机制。同时,本文还提出了一种新颖的分层细化模型HRCNN,通过整合局部上下文信息,分层逐步地细化显着性图以恢复图像细节,在提高检测精度的同时,由于避免过度分割图片而实现了23FPS的高速实时速度。

Chen等人[13]提出了建立在两个CNN之上的深度图像显着性计算(DISC)框架,其第一个CNN将整个图像作为输入并测量全局上下文中每个像素的显着性得分,以较低分辨率生成粗略级别显着性图,而后利用基于超像素的局部上下文信息(SLCI)来进一步细化粗略显著性图,并将该图与原始图像一同输入至第二个CNN,在局部环境中测量准确和精细的显着性。

除以上几项将局部信息与全局信息融合的工作外,在2015、2016年间还出现了许多种基于传统卷积神经网络的显著性目标检测方法。如基于边框回归(bounding box)的方法,或基于一维卷积的方法。而另外一些工作则注意到高级特征在精确定位上的缺陷,并提出了改进方法。如Lee等人[14]在CNN之外设计了一种编码特征距离图(ELD-map),用于编码各种低级特征的特征距离(包括颜色,颜色分布,Gabor滤波器响应和位置),通过发挥低级特征的互补作用,通过精确检测显着区域来辅助高级特征。

可以看出的是,上述基于MLP的模型主要依赖于图像区域信息和分类网络。这些图像块区域被调整大小到固定大小,然后被馈送到分类网络,该网络用于确定每个区域的显着性。 虽然一些模型使用多尺度输入来提取多个尺度的特征,但是这种学习框架无法充分利用高级语义信息。此外,空间信息不能传播到最后完全连接的层,从而导致全局信息丢失。

2.2 完全卷积神经网络方法

与基于区域级的传统卷积神经网络显著性目标检测模型不同,完全卷积网络(FCN)通过考虑像素级操作来克服由完全连接层引起的问题(如在显着对象的边界附近的模糊和不准确的预测),由于FCN的理想特性,在2016年之后,许多显著性目标检测模型都开始基于FCN实现。本部分将主要介绍在基于FCN的显著性目标检测常用的骨干网络,以及特征融合方法。

2.2.1 骨干网络

骨干网络在计算机视觉任务中起着重要作用,当一个骨干网络在其中一项计算机视觉任务中取得有效提升时,往往对另一项任务有所益处,Huang等人[16]的观察结果验证了这一观点:由于骨干网络的分类性能在ImageNet分类任务上有所增加,基于这些骨干网络的物体探测器的性能也随之提升。在过去几年中,大量骨干网络被提出且运用到不同的计算机视觉任务中,而在显著性目标检测任务中,VGG[17]与ResNet[18]得到最广泛的使用。

VGG[17]:在过去几年中,大量显著性目标检测模型选用VGG作为其骨干网络,如[19],[20],[21],[22],[23],[24],[25],[26],[27],[28]等。相比起其他模型,以VGG为骨干网络的显著性目标检测模型参数更少,模型架构更轻,更适合于显著性目标检测自身定位(即作为众多计算机视觉任务的预处理过程)。但与此同时,由于VGG自身网络层级限制,以VGG为骨干网络的模型很难提取到更深层语义特征,因此在检测性能上要相对较低。

ResNet[18]:最近,以ResNet为骨干网络的显著性目标检测模型(如[29],[30],[31])在数据集上表现突出,成为显著性目标检测除VGG外最受欢迎的骨干网络。部分工作同时选用VGG和ResNet作为骨干网络([15],[21],[27]),并对两类模型性能进行对比,从这些工作中容易看到的是,以ResNet为骨干网络的模型往往比VGG为骨干网络的模型性能要更高,这是由于ResNet有更深的卷积层所致。但也因此,以ResNet为骨干网络的模型体积要更大,不如以VGG为骨干网络的模型轻巧。

其他:虽然显著性目标检测中大部分模型以VGG、ResNet为骨干网络,但除此之外,还有其他一些模型尝试使用其他一些在计算机视觉任务中表现出色的模型。如Hu等人[28]在使用VGG作为骨干网络之外,还曾尝试以DenseNet[32]作为骨干网络。然而尽管现在很多新的骨干网络在其他视觉领域涌现,但考虑到在进行对比实验时的公平性,当前显著性目标检测的工作仍然以VGG和ResNet为主流,以验证模型设计的有效性。

2.2.2 特征融合

虽然完全卷积神经网络方法相比起传统卷积神经网络方法能更好地保存下来空间信息,但经过层层卷积后的特征图却丧失了显著物体的丰富细节,从而导致预测结果的不准确。为了解决这个问题,最近几年显著性目标检测的工作都着重于设计更复杂的特征融合网络结构,以更好地融合特征,提高模型效果。本节将对近几年在这一问题上所研究者们所做出的杰出工作进行分类介绍。

短接法:最早出现且富有成效的特征融合方法无疑是短接法,短接法通过对转换成的同等大小的特征图进行加权连接,从而保留高低层特征图的各自优点。Li等人[19]提出了由完全卷积流和分段空间池流组成的双流框架,之后将这两个流的融合特征图通过完全连接的CRF进一步细化,以获得更好的空间相干性和轮廓定位。在其完全卷积流中,本模型将各特征图连接相加,起到特征融合的效果。

而在[21]中,Hou等人则在HED的基础上,提出了一种简洁有效的强监督短接结构。该模型将经过放大后的深层特征图与在它之前所有浅层特征图连接,从而有效地利用了高级特征与低级特征,融合了他们的优点,令高级特征可以转换为较浅的侧输出层,从而可以帮助他们更好地定位最显着的区域,同时较浅的侧输出层可以学习丰富的低级特征,这些特征可以帮助从更深的侧出输出层细化稀疏和不规则的预测图。

不同于之前的工作,Chen等人[24]则在使用短接法的同时,使用残差学习来学习侧输出残差特征,以此代替直接学习不同侧输出阶段的多尺度显着特征,从而达到在保证精度的前提下使模型更轻量化的效果。

循环法:短接法虽然简单且效果明显,但直接将连接操作应用于不同的特征映射却可能引入噪音,在检测和分割显着对象时引入误导信息,而循环细化方法被提出以改善这一问题。相比起短接法,循环细化方法可以减少不必要的噪音产生并逐步细化显著图以达到更好的显著性检测结果,因此在近年广受青睐。

例如,Wang等人[29]提出了一种多阶段性循环细化网络,该网络主要使用低级特征来细化显着性图,从而不断更新模糊显著性图中的清晰详细的边界,实现高分辨率显著对象分割。而Zhang等人[26]主要利用多路径循环反馈将全局语义信息从顶层传输到较浅层,用于细化整个网络。

Deng等人[31]则使用残差网络进行网络优化,使能可以增强显着性细节的同时抑制中间显着图的非显着区域,更精确地预测显著性目标。该模型设计了一个新的残差细化区块(RRB),以便在每个循环步骤中学习地面实况和显着性图之间的残差,同时提出了一个循环残差细化网络(R3Net),通过构建一系列RRB来逐步改进显着性图,以交替使用低级特征和高级特征。

Wang等人[30]提出了由两个部分组成的模型,即循环定位网络(RLN)和边界细化网络(BRN)。前者中包含了可以学习每个像素的权重的上下文权重模型与可以逐步细化预测显着图的循环模型,后者则采用细化模块通过传播效率来学习本地上下文信息。该模型通过反复关注各种场景的空间分布可以帮助更好地定位显着对象,同时有助于通过每个像素与其邻居之间的关系来细化显着性图。

Hu等人[28]提出了一个新的基于FCN的方法RADF,以循环方式将多层深度特征聚合到每个层的特征。这一网络通过将多层FCN层结合成一个MLIF(多级集成特征),将其与多层特征合并,对每层特征进行细化,从而减少低级非显著区域,增强高级显著性细节。相比起简单集成多级特征,这一方法能够更有效地利用在不同层中生成的特征中编码的补充信息。

冗余信息过滤:循环法通过循环细化特征图来进一步提高检测效果,但是在循环过程中,冗余信息并没能得到有效的过滤,因而对检测效果会造成影响。最近,不少工作都引入如注意力机制等的方法来解决此问题,并与短接法或循环法结合,以此寻求更好的检测结果。本部分将对这些冗余信息过滤方法进行介绍。

Liu等人[27]提出了像素级上下文注意力网络PICANet,使可以为每个像素的上下文区域产生注意力,他们从全局和局部使用PICANet,从而分别关注全局和局部的情况,获得信息丰富的上下文特征。Zhang等人[26]使用了空间注意力,通过对不同的卷积层赋予不一样的权重值,选择性地集成来自多级特征的上下文信息,以生成强大的注意特征。Chen等人[24]则在残差学习的基础上进一步提出反向关注以指导侧输出残差学习。通过抹去当前预测,网络可以有效且快速地发现丢失的对象部分和残留的细节,从而显着提高性能。

Chen等人[33]通过引入注意机制来指导每个侧输出层的特征学习,以自上而下的方式对每个侧输出层应用注意权重,并引入残差学习来堆叠这样的注意块以用于大的感受野。这一模型可以有效地使用深层中的高级语义信息来滤除浅层背景区域的噪声,从而获得更好的特征表示。另外,模型虽然是用的逐步细化方法,但与以前的多级特征融合方法不同的是,本文模型将二阶项用于元素加法,以学习残差侧输出特征以进行细化。通过引入非线性,它有助于深度网络更好地适应特征空间的复杂分布。

Zhuge等人[34]使用一种导向滤波器细化网络(GFRN)[35]来过滤异常值并生成注意特征以精确定位显着对象。文中所用的导向滤波器[35]旨在在给定相应的低分辨率指导图和高分辨率指导图的情况下有效地生成高分辨率输出,它可以表示为一组空间变化线性变换矩阵,主要解决联合上采样能力有限的问题。

其他:之前,我们分类总结了显著性目标检测在特征融合这一问题上的几类工作,而这一部分将对一些其他类型的工作进行补充。Zhang等人[36]使用一种图像过分割方法对图像进行处理,将图像变换为三种尺度,从而在不同尺度上融合显着性线索以提高检测效果。而Zhang,Liu等人[37]则提出了一种对称设计,由两个兄弟FCN分支和一个融合分支组成的SFCN深度网络架构,使能学习互补的视觉特征,并在无损特征反射的指导下预测精确显着图。

Su等人[38]从一种新颖的选择性-不变性困境的角度重新审视显著性目标检测问题,对物体内部和边界分别使用不同的特征提取器,使用引入边界定位和内部感知流以分别捕获具有选择性和不变性的特征,而后采用过渡补偿流来修正边界和内部之间的可能故障,最后融合这三个流的输出以获得边界感知特征马赛克选择方式中的显着性掩模。

3. 显著性目标检测存在问题分析

显著性目标检测方法虽然在二十年的时间里不断更新迭代,但直至今日,这个领域中仍然存在有不少问题需要解决。因此,本章将主要介绍显著性目标检测当前存在的问题,并对其进行分析。

3.1 语义级显著性目标检测

过去二十年中,不断有新的用于显著性目标检测的数据集诞生,但它们通常是目标级的显著性目标检测数据集,即只在图中标注出显著对象,而不对不同物体进行细分。

Li等人[43]于2017年首次提出语义级显著性目标检测概念,并创建了一个新的具有挑战性的数据集,随后,Fan等人[44]于2018年创建了另一个数据集用于语义级显著性目标检测,并在数据集中引入不包含显著物体的图像数据。

这几年中,陆续有一些语义级显著性目标检测的工作公布,如Fan等人[45]为实例级显著性目标检测构建了一个新模型,Wang等人[46]在工作中考虑了区分多个对象类别等。但语义级显著性目标检测方面的工作仍然十分稀少,大部分当前的工作仍然专注于目标级的显著性检测。

3.2 视频中的显著性目标检测

大量当前工作只集中在单张图片上,而在视频序列上的显着物体检测则比较少见,这背后的一个原因是基准数据集在这些问题上的可用性有限。视频显着性只有两个公开可用的基准数据集,并且对于这些视频,数据集仅为关键帧提供边界框以粗略地定位显着对象。2019年CVPR上,Deng-Ping Fan将进行Shifting More Attention to Video Salient Object的口头报告,更多内容将在那之后补充。

3.3 稀少的数据集

不比其他计算机视觉任务(如:目标检测、语义分割等),显著性目标检测数据集是十分稀少昂贵的。以图片数据集为例,当前常用的十四个目标级显著性检测数据集与语义级显著性检测数据集总计大小为4G,仅有COCO数据集的数分之一大小。这主要是由于显著性目标检测数据集标注是一项精细复杂的工作所致。近年来,一些模型也在探究如何解决这一问题,如Li等人[47]通过显著性检测与语义分割联合训练的方法来弥补这方面不足,而Jia等人[48]则介绍了一种从对象检测的视觉任务中引入相关的注释数据的方法,用于缓解此问题。

4.应用场景

作为一个底层预处理步骤,显著性目标检测模型已经在计算机视觉,图形和机器人等许多领域中广泛应用。例如物体检测和识别,图像和视频压缩,视频摘要,照片拼贴/ 媒体重新定位/裁剪/缩钉,图像质量评估,图像分割,基于内容的图像检索和图像采集浏览,图像编辑和操作,视觉跟踪,对象发现和人类-机器人互动等等。

5.数据集与评价指标

5.1 数据集

常用的显著性目标检测数据集大概有以下十四种:

目标级显著性目标检测:SOC、THUR-15K、DUTS 、MSRA-B 、MSRA-10K、DUT-OMROM、PASCAL-S、HKU-IS、ECSSD、JuddDB、SOD、SED2

语义级显著性目标检测:SOC、ILSO

5.2 评价指标

当前论文中常用的显著性目标检测评价指标如下:

F-measure:F-measure作为Precision和Recall的加权调和平均值,具有非负权重,它的计算公式如下:

其中,β2常被设置为0.3,这是因为召回率并不和精度一样重要,例如,通过将整个地图设置为前景,可以轻松实现100%的recall。

又有:

其中M是生成的二值图,而G代表ground-truth。

平均绝对误差 (MAE):计算连续显著性图S与ground-truth之间的误差,图中W和H代表图片的宽和高。

S-Measure:该指标旨在研究如何评价前景映射图,由面向区域的结构相似性度量和面向物体的结构相似性度量组成。公式中,前者为面向物体的结构相似性度量组成,后者为面向区域的结构相似性度量,具体可见[49]。

6.参考文献

[1]Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. PAMI, 1998 (11): 1254-1259.

[2]Achanta R, Estrada F, Wils P, et al. Salient region detection and segmentation[C]//International conference on computer vision systems. Springer, Berlin, Heidelberg, 2008: 66-75.

[3]Vidal R, Ma Y, Sastry S. Generalized principal component analysis (GPCA)[J]. IEEE transactions on pattern analysis and machine intelligence, 2005, 27(12): 1945-1959.

[4]Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[J]. 2009.

[5]Cheng M M, Mitra N J, Huang X, et al. Global contrast based salient region detection[J]. PAMI, 2015, 37(3): 569-582.

[6]Wang M, Konrad J, Ishwar P, et al. Image saliency: From intrinsic to extrinsic context[C]. CVPR 2011. IEEE, 2011: 417-424.

[7]Wang L, Lu H, Ruan X, et al. Deep networks for saliency detection via local estimation and global search[C]. CVPR, 2015: 3183-3192.

[8]Zhao R, Ouyang W, Li H, et al. Saliency detection by multi-context deep learning[C]. CVPR, 2015: 1265-1274.

[9]J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation”. CVPR, 2015, pp.3431–3440.

[10]Borji A, Cheng M M, Hou Q, et al. Salient object detection: A survey[J]. arXiv preprint arXiv:1411.5878, 2014.

[11]Li G, Yu Y. Visual saliency based on multiscale deep features[C]. CVPR, 2015: 5455-5463.

[12]Liu N, Han J. Dhsnet: Deep hierarchical saliency network for salient object detection[C]. CVPR, 2016: 678-686.

[13]Chen T, Lin L, Liu L, et al. Disc: Deep image saliency computing via progressive representation learning[J]. IEEE transactions on neural networks and learning systems, 2016, 27(6): 1135-1149.

[14]Lee G, Tai Y W, Kim J. Deep saliency with encoded low level distance map and high level features[C]. CVPR, 2016: 660-668.

[15]Li Z, Lang C, Chen Y, et al. Deep Reasoning with Multi-scale Context for Salient Object Detection[J]. CVPR, 2019.

[16]Jonathan Huang, Vivek Rathod, Chen Sun, et al. Speed/accuracy trade-offs for modern convolutional object detectors. CVPR, 2017.

[17]K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR, abs/1409.1556, 2018.

[18]K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. CVPR, pages 770–778, 2015.

[19]G. Li and Y. Yu. Deep contrast learning for salient object detection. CVPR, pages 478–487, 2016.

[20]L. Wang, L. Wang, H. Lu, P. Zhang, and X. Ruan. Saliency detection with recurrent fully convolutional networks. ECCV, pages 825–841, 2016.

[21]Q. Hou, M.-M. Cheng, X. Hu, A. Borji, Z. Tu, and P. Torr. Deeply supervised salient object detection with short connections. CVPR, pages 5300–5309, 2017.

[22]Z. Luo, A. K. Mishra, A. Achkar, J. A. Eichel, S. Li, and P.-M. Jodoin. Non-local deep features for salient object detection. CVPR, pages 6593–6601, 2017.

[23]P. Zhang, D. Wang, H. Lu, H. Wang, and X. Ruan. Amulet: Aggregating multi-level convolutional features for salient object detection. ICCV, pages 202–211, 2017.

[24]S. Chen, X. Tan, B. Wang, and X. Hu. Reverse attention for salient object detection. ECCV, pages 236–252, 2018.

[25]L. Zhang, J. Dai, H. Lu, Y. He, and G. Wang. A bidirectional message passing model for salient object detection. CVPR, pages 1741–1750, 2018.

[26]X. Zhang, T. Wang, J. Qi, H. Lu, and G. Wang. Progressive attention guided recurrent network for salient object detection. CVPR, pages 714–722, 2018.

[27]N. Liu, J. Han, and M.-H. Yang. Picanet: Learning pixelwise contextual attention for saliency detection. CVPR, pages 3089–3098, 2018.

[28]Hu X, Zhu L, Qin J, et al. Recurrently aggregating deep features for salient object detection[C]. AAAI , 2018.

[29]T. Wang, A. Borji, L. Zhang, P. Zhang, and H. Lu. A stagewise refinement model for detecting salient objects in images. ICCV, pages 4019–4028, 2017.

[30]T. Wang, L. Zhang, S. Wang, H. Lu, G. Yang, X. Ruan, and A. Borji. Detect globally, refine locally: A novel approach to saliency detection. CVPR, pages 3127–3135, 2018.

[31]Deng Z, Hu X, Zhu L, et al. R3Net: Recurrent residual refinement network for saliency detection[C]. IJCAI, 2018: 684-690.

[32]Huang G, Liu Z, van der Maaten L, Weinberger K Q. Densely connected convolutional networks[C]. CVPR, 2017.

[33]Chen S, Wang B, Tan X, et al. Embedding Attention and Residual Network for Accurate Salient Object Detection[J]. IEEE transactions on cybernetics, 2018.

[34]Yunzhi Zhuge, Yu Zeng, Huchuan Lu. Deep Embedding Features for Salient Object Detection[C]. AAAI, 2019.

[35]Wu H, Zheng S, Zhang J, et al. Fast end-to-end trainable guided filter[C]. CVPR, 2018: 1838-1847.

[36]Zhang J, Dai Y, Porikli F. Deep salient object detection by integrating multi-level cues[C]. WACV, 2017: 1-10.

[37]Zhang P, Liu W, Lu H, et al. Salient Object Detection with Lossless Feature Reflection and Weighted Structural Loss[J].TIP, 2019.

[38]Su J, Li J, Xia C, et al. Selectivity or Invariance: Boundary-aware Salient Object Detection[C]. CVPR, 2019.

[39]Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]. CVPR, 2018: 6848-6856.

[40]Y. Chen, M. Rohrbach, Z. Yan, S. Yan, J. Feng, and Y. Kalantidis. Graph-based global reasoning networks. arXiv preprint arXiv:1811.12814, 2018.

[41]X. Wang and A. Gupta. Videos as space-time region graphs. arXiv preprint arXiv:1806.01810, 2018.

[42]T.-Y. Lin, A. RoyChowdhury, and S. Maji. Bilinear cnn models for fine-grained visual recognition. CVPR, pages 1449–1457, 2015.

[43]Li G, Xie Y, Lin L, et al. Instance-level salient object segmentation[C]. CVPR, 2017: 2386-2395.

[44]DengPing Fan, MingMing Cheng, JiangJiang Liu, et al. Salient Objects in Clutter: Bringing Salient Object Detection to the Foreground, ECCV, 2018.

[45]Fan R, Hou Q, Cheng M M, et al. S4Net: Single Stage Salient-Instance Segmentation[J]. arXiv preprint arXiv:1711.07618, 2017.

[46]Wang L, Wang L, Lu H, et al. Salient object detection with recurrent fully convolutional networks[J]. PAMI, 2018.

[47]Li X, Zhao L, Wei L, et al. Deepsaliency: Multi-task deep neural network model for salient object detection[J].TIP, 2016, 25(8): 3919-3930.

[48]Sen Jia, Neil D. B. Bruce. Richer and Deeper Supervision Network for Salient Object Detection[C]. Arxiv, 2019.

[49]DengPing Fan, MingMing Cheng, YunLiu, et al. Structure-measure: A new way to evaluate foreground maps[C]. IEEE ICCV, 2017.

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值