显著性目标检测(识别图像的主体,本质是一种分割任务。先算显著图,再合并分割显著对象)
2014前,基于手工特征的传统方法:无法描述复杂场景、对象结构;泛化能力差。
基于深度学习的方法:
1)多层感知机(MLPs)/传统CNNs
输入图像被过度成多尺度的小区域,然后将CNN用于提取图像中的高级特征,该高级特征随后被反馈回MLP以确定每个小区域的显着性值。
虽用CNN提取高级特征,但由于MLP的使用,CNN所提取的特征中的空间信息并不能被保留。
结合局部信息和全局信息,来克服基于局部的模型中突出对象边界,而不突出对象整体。
[7] 两个子网络DNN-L、DNN-G
[8] 全局与局部上下文,以超像素为中心的窗口
本文模型将嵌套窗口中提取的多尺度CNN特征与具有多个全连接层的深度神经网络结合。(将输入图像分为考虑区域,紧邻区域以及全图三个区域,对分割出的三个不同图像使用相同的CNNs进行特征提取,而后进行整合)
上述基于MLP的模型,主要依赖于区域信息和分类网络。这些图像块区域被调整到固定大小,然后被送到分类网络,该网络用于确定每个区域的显着性。 虽然一些模型使用多尺度输入来提取多个尺度的特征,但是这种学习框架无法充分利用高级语义信息。此外,空间信息不能传播到最后完全连接的层,从而导致全局信息丢失。
2)全卷积网络(FCN)
具有保存空间信息的能力。
论文:Visual Saliency Detection Based on Multiscale Deep CNN Features
年份:TIP 2016
期刊:G.-B. Li, Y.-Z. Yu. IEEE Transactions on Image Processing, Nov, 2016, pp. 5012-5024.
初版:Visual Saliency Based on Multiscale Deep Features,
年份:CVPR 2015
作者:同期刊(香港大学)
(https://sites.google.com/site/ligb86/mdfsaliency/)
CVPR 2015(Multiscale Deep Features,MDF)
Results
Figure 1:不同方法显著图的视觉比较
MDF
显著图的视觉比较:
(a)Source,(k)Ours MDF,(L)GT:ground truth,(b-j)其他9种方法
???二值gt的标签合理吗
定量比较
Figure 2:在对10种不同方法的显著性图进行定量比较
4个数据集上:(a)MSRA-B数据集,(b)SOD数据集,(c)iCoSeg数据集,(d)本文的数据集
(第一行)不同方法的PR曲线(精度召回precision-recall),
(第二行)使用自适应阈值的平均精度、召回和F-测量(precision, recall and F-measure),
(第三行)平均绝对误差(Mean Absolute Error)
贡献
1、model:提出新的显著性模型MDF(Multiscale Deep Features)
2、framework:进一步将显著性模型(ours)、空间一致性模型、多层次图像分割相结合,形成完整的显著性框架
3、datasets:HKU-IS