typora-root-url: images
SaliencyReviews
显著性检测论文综述阅读笔记
Author: wbzhang 2020/3/19
E-mail: wbzhang233@163.com
1.Salient Object Detection in the Deep Learning Era: An In-Depth Survey
刊于2019.10 单张图片的显著性,DL
作者:王文冠
摘要:本综述主要致力于回顾基于深度学习的显著性检测方法,并且从不同的网络结构、监督信号层面、学习范式层面和目标/实例检测层面进行了综述。最后,总结了已有的SOD方法的评估数据集和评价指标。
并且基于先前的方法,特意编译通过了一个SOD benchmark评价方法。我们进一步分析了深度SOD模型的鲁棒性和迁移性。
最后讨论了一些SOD方面的挑战与问题。
1.引言
略,注释在论文上。
2.DL_SOD
2.1 SOD中具有代表性的网络架构
先有MLP,后有FCN。
MLP的方法通常采用超像素或者图像区块,并且手工设计特征来进行降维,并喂给MLP或者CNN进行预测。
因为MLP-SOD通过不能够很好的提取紧要的空间信息并且对每个子单元进行处理很耗时间,基于FCN的方法流行起来。
1)Single-stream 单流程架构
大多都使用编码-解码流来预测粗略的显著图,然后进行精细化,或在超像素层面上。
2)mulit-stream 多流程架构
通常在不同尺度上学习显著性特征,从不同流输出的特征进行结合产生最终的显著图预测结果。
3)side-out fusion 旁侧融合架构
利用CNN层次结构的固有多尺度表示,通常由GT进行监督。
4)bottom-up/top-down 自下而上/自上而下架构
通过逐步结合底层空间信息最丰富的的特征来精细化初步的显著性估计,并且在最顶层生成最终的显著图。
- DHSNet :通过使用RNN层来逐步结合浅层特征并对粗略的显著图进行精细化,所有的中间图均由GT进行全监督。
- SBF:借鉴了DHSNet的网络体系结构,但是在几种无监督的启发式SOD方法提供的弱GT上进行训练。
- BDMP:使用具有多种感受野的卷积层细化特征,并且使用门控双向通路实现层间交换。
- RLN:使用一个inception形模块来纯化低层特征,在自上而下通路进一步通过循环机制来细化结合的特征。显著图通过边界细化网络来增加。
- PAGR:通过合并多路径循环连接将高层语义信息传递到低层,从而增强了特征提取通路的学习能力。自上而下的通路嵌入了若干个通道空间注意模块用于细化特征。
- ASNet:在前馈过程中学习一个粗略的显著图,然后利用一堆卷积LSTM层通过合并来自较浅层的多层特征来迭代地推断像素方向的显著对象分割。
- PiCANet:
- RAS:
5)branch network 分支结构
这个大概是结合了其他任务的显著性检测,知识量过于庞杂,暂且跳过。
6)hybrid network-based 混合网络结构
类似MLP与FCN相结合,不同类型的架构进行混组。
2.2 监督层面
主要分为像素层面的全监督,或者无监督/弱监督方法
非监督/弱监督里又包含类别层面监督和伪像素层面监督。
类别监督:采用图像层面标记的层级深度特征可以定位包含物体的区域,可以用于标记场景中的显著目标。
伪像素层面监督:虽然内容丰富,图像层面的标记对于实现精确的像素级的显著性分割还是过于稀疏。有些学者提出利用传统的非监督SOD方法,或者轮廓信息去自动生成带噪声的显著图,随后将其精细化(提纯)并且提供像素级别的监督信号,用来训练深度SOD模型。
2.3 学习范式
这方面咱也不是砖家,先跳过吧。
2.4 目标/实例层面的SOD
简而言之,通常不加额外说明的显著性只分别那个像素属于显著目标,但并不区分单个像素属于哪一个具体的目标,而实例层面则需要区分每个像素所述的目标。
3.SOD数据集
早期:仅仅标注了显著目标的boundingbox,被认为是不充分不可靠的评估。
中期并且主流:像素级的大尺度数据集,常用的GT二值图。
- SOD–300张图片
包含了来自于Berkeley分割数据集的300张图片,许多图片可能具有超过一个显著性目标,这些显著性目标可能相对背景有较低的颜色对比度或者触及边界。
- MSRA10K (THUS10K)–10k张图片
又称之为TUHS10K,包含来自于MSRA的10k张图片并且覆盖了ASD数据集中的1000张图片。这些图片具有一致的边界框标注,并且进一步进行了像素级别的注解。因为其具有较大尺寸和精准的标注,被广泛应用于训练深度SOD模型。
- ECSSD–1k张
由1000张语义丰富的但是结构复杂的自然场景图片组成,GT由5位参与者给与标注。
- DUT-OMRON–5168张
包含5168张内容丰富并且背景相对复杂的图片,每张图片均具有像素级的GT标注。
- PASCAL-S–850张
包含了从PASCAL VOC2010中选出的850张具有挑战性的图片,另外对于注视预测,提供了粗糙的像素级和非二值显著目标标注。
- HKU-IS–4447张
包含了4447张复杂场景图片,并且典型的包含了多个不连通的目标,具有相对多样化的空间分布,也就是说,至少有一个显著目标触及边界。
- DUTS-(10553训练,5019测试)
最大的SOD数据集,包含10553张训练图片和5019张测试图片,训练集图片选自ImageNet DET 训练验证集,测试集选择ImgaeNet test数据集和SUN数据集。2017年之后,许多深度SOD模型在DUTS数据集上进行训练。
最近:每张图片具有高杂乱背景,并且有多个显著目标。有的还提供实例显著性级别的评估。
此外,还包括其他特殊的SOD数据集。
4.评价指标
-
PR曲线
P = T P / ( T P + F P ) P=TP/(TP+FP) P=TP/(TP+FP)R = T P / ( T P + F N ) R=TP/(TP+FN) R=TP/(TP+FN)
-
F值
F β = ( 1 + β 2 ) ∗ P ∗ R / ( β 2 ∗ P + R ) ; β = 0.3 F_β=(1+β^2)*P*R/(β^2*P+R);β=0.3 Fβ=(1+β2)∗P∗R/(β2∗P+R);β=0.3 -
MAE(均方误差)
-
加权F_β值,扩展了F值,并且赋予TP、TN、FP、FN根据不同位置考虑周边信息来分配不同的权重给不同的错误,即导致P和R受加权改变。
F β F_β Fβ -
S-Measure:与上述仅解决像素错误的指标不同,它评估了实值显著图和二进制真值GT之间的结构相似性。S值考虑了两项,
S o : 目 标 感 知 ; S r : 区 域 感 知 ; 则 总 的 S = α × S o + ( 1 − α ) × S r S_o:目标感知;S_r:区域感知;则总的 S=α×S_o+(1-α)×S_r So:目标感知;Sr:区域感知;则总的S=α×So+(1−α)×Sr
分别表示目标感知和区域感知的结构相似度(Structure similarities,SSIM) -
E-Measure:考虑了图像的全局均值与局部相似同时匹配。公式如下:
-
SOR(salient object ranking)
被设计用于显著目标替代,它是根据同一图像中多个显著物体的GT登等级排序(rank order)和预测等级顺序rgS之间的归一化Spearman等级顺序相关性来计算的。
5.BENCHMARKING与分析
6.讨论
7.结论
本文提出了基于DL的SOD的第一篇全面的综述。
…一堆废话…
我们以基准测试和基准测试的新方法调查了一些先前未充分研究的问题。我们通过编译和注释新数据集并测试几种代表性的SOD算法来执行基于属性的性能分析。
我们最终研究了深度学习时代SOD的一些开放性问题和挑战,并对未来可能的研究方向进行了深刻的讨论。