从人类视觉推理显著性目标检测

最新推荐文章于 2024-04-17 00:30:00 发布

Archy瞬

最新推荐文章于 2024-04-17 00:30:00 发布

阅读量4.4k

点赞数 5

文章标签：计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/qq_43202953/article/details/111664165

版权

(推荐一个我自己做的普法公众号，大可说法律)，法律问题关注后可免费咨询)

本次解读IEEE Transactions on Pattern Analysis and Machine Intelligence 的论文：Inferring Salient Objects from Human Fixations

从人类注视推理显著性目标

摘要

目前关于视觉显著性的研究主要集中在两个方面：注视点的预测和SOD（显著性目标检测），然而这两者之间的关系并没有很好的探索，论文提出了一种利用注视点预测模型辨别显著性目标(ASnet模型)。通过利用注视点预测推理显著目标，建立了新型的注意力显著性网络。网络上层获得注视图模拟了人类视觉注意力机制，因此这种注视图从全局的角度捕捉了场景中的高级语义。显著性目标检测被认为是一种物体级的微调的分割，由注视图以自上而下的方式进行引导优化。ASnet是基于convLSTM层级提供有效递归机制，多步微调显著性特征。此外根据现存的评价表准则，几个损失函数用来提高网络的性能。在几个大量的数据集中做了实验研究，研究表明ASnet表现突出，可以生成精确的分割图，本工作对注意力机制的研究提出了跟深入的探讨与见解，并减少了SOD和注视预测之间的差距。

1 引言

SOD已经研究了十几年了，它在目标物分割、视觉追踪等很多领域具有广泛的应用。最近利用深度学习的神经网络来做显著性检测已经成为趋势。虽然模型的结果还不错，但是模型与结果直接的因果关系，或者说是模型与人类对显著性物体识别过程的联系是不清楚的。这就在一定程度上限制了SOD模型的解释能力。更进一步讲，大多数的人眼跟踪数据集包含的物体多于SOD数据集包含的物体。SOD数据集包含的物体一般为一到两个。因此对于一个给定多物体复杂场景下（图1a），SOD模型可能无法找到最显著的物体。
在这里插入图片描述
这篇论文提出了一个更具有生物学意义上的SOD模型，受行为学的启发，即人类如何明确的选择显著物体，如何判断在自由观看下与眼动的关系。本文的目的不是利用底层大脑的注意力机制，而是利用高层的先验语义信息，即注视图Fixation map。以眼球运动或者注视图预测模型为代表的人类注意力先验信息更符合人类视觉系统在自然场景中自由观看中的视觉处理过程。该模型不仅能生成高质量的目标显著性图，而且使得边界与人类注视预测关系更密切。正如图1中我们用c作为先验选择机制，推断出b的显著性结果。这种先验模仿了人类视觉注意机制，并允许模型以一种可以解释的方式明确的分割出视觉上最重要的对象。该算法基于【12】【13】的核心观点，这些文献探讨了眼球运动和外部显著性之间的关系，证实了注视和显著性对象之间强烈的相关性。此外，传统的显著性模型将fixation map （FM）和 SOD 视为两个独立的任务，本文模型以一种相互关联和综合的方式整合了这两个任务。注视图提供一个源自上层网络的高层信息，然后以自上而下的方式用于SOD。这个过程是直观的并且类似于人类处理场景的过程（首先快速注意到重要的区域，而后对重要区域进行处理）。同时，利用现有大规模眼动数据集的丰富信息可以提高SOD模型的鲁棒性和泛化能力。
ASnet是基于convLSTM建立的，因此从输入到状态，从状态到状态的过程中都是有卷积结构的，而卷积可以保留空间信息。与全连接的LSTM不同，convLSTM通过卷积操作编码了空间信息。这对像素级显著性标记至关重要，另一个关键是LSTM通过迭代去除无关信息，并通过更新存储单元来学习强大的特征。这使得ASnet以前馈的方式逐步优化特征，通过叠加多个convLSTM，ASnet可以借助注视图以自上而下的方式逐步计算目标显著性。
几种评价指标已经被用来评估关于SOD模型性能，这些指标的不一致使得公平的比较模型的性能具有挑战性。因此我们希望开发一套新的损失函数，使得ASnet可以直接访问评价指标，同时促使ASnet可以通过不同的评价因素获取更好的性能。ASnet是全卷积不需要其他预处理，处理速度15fpsa（一个GPU，w/o IO time and CRF）。
总之本文的贡献有一下四方面：

一个受生物学启发的深度SOD模型，可以从视觉注意的先验信息学习目标显著性。该模型有效的从网络低层的注视图中推断出显著性对象，与人类视觉注意行为更加一致。这超越了之前基于深度学习的显著性模型，对注视预测和显著性目标检测之间的融合提供了深入的见解。
（个人疑问：如何获得这个先验信息，如何获得带任务或者目标驱动的先验信息，文章所用的方法怎么是生物学上的先验信息呢？如何保证获取的信息与人类视觉注意行为一致性）
新型的网络结构：利用convLSTMs迭代来学习和提取显著性特征。这种注意力显著性网络由convLSTMs组成层次结构，以逐步、从粗到细、自上而下的方式推断显著性。convLSTMs的优点是改进了具有周期性连接的信息流，从而产生更强大的显著性表示。
为SOD提出了一组必要有效的损失函数。由现存的SOD评价指标推导出更有效的损失函数，并通过实验证明新的损失函数带来更高的性能。
（损失函数带来更高性能的原因有没有依据，是否可分析并改进？）
实验提供了经验证据，为SOD 和 FP任务之间的关系做了更深入的了解。FP可以为SOD带来好处，未来研究工作可以此作为方向。

这篇论文的基础是Salient object detection driven by fixation prediction ，CVPR2018,在以下几个方面做了扩充：首先对网络结构，网络的实现以及动机做了更深入的讨论；其次对SOD 和FP 做了更详尽的概述，同时对两者的关系做了更有见地的讨论；做了更多的ablation study 彻底的检验模型的性能，最后用更多的数据集验证模型。

2 相关工作

本节将简要的回顾FP的文献综述（2.1）以及SOD的文献综述（2.2）。在2.3节中，探索两个任务之间的关系，同时对论文提出的递归深度显著性模型的网络结构进行讨论。

2.1 注视点预测（FP）

注视点预测是人类在自由观看任务下的注视位置，该研究虽然已有一段研究历史，但在视觉研究领域依旧很活跃。
早期注意力模型主要是基于刺激驱动的自下而上的机制以及假想的认知视觉注意机制。主要受生物启发的特征，比如对比度、颜色或者角度等特征，以这些特征为基础确定区域中注视概率较高的位置。从计算的观点这些注意力模型可以分为：认知、贝叶斯、决策理论、信息论、图、频谱分析、模式分类等注意力模型。
近期学界提出了许多基于深度学习的视觉注意力模型。早期代表作之一是eDN模型，该模型从一组层次结构中搜索最优深度特征神经形态网络，并将特征输入支持向量机进行显著性预测。这项工作之后，一系列的深度学习结构出现了，不同于上述网络，很多工作在现有的深度网络（例如VGG-16）等基础上进行改进微调，并在眼动数据集上取得更好的性能。还有许多工作不赘述。利用大量眼动数据集和深度网络较强的学习能力，与大部分传统非深度技术比较，目前很多深度学习网络取得了更好的性能结果。

2.2 显著性目标检测（SOD）

SOD模型目的在于将图片中感兴趣的区域以显著的方式标记出来，与基于认知和心理学的FP不同，SOD是一种计算机视觉的任务，主要用于物体级别的应用。有基于底层特征的非深度学习模型，而深度学习的SOD模型更有潜力，比如早期基于全连接网络利用图像分割完成SOD，该方法是将从图片片段中提取的深度特征输入到全连接分类器中，用于显著性评分预测。虽然与非深度学习的模型相比，这些全连接的SOD模型取得较好的性能提升，但其在空间信息方面表现不佳，而且需要耗时来逐个处理图像片段。为了克服这些不足，最新的SOD模型大都采用全卷积神经网络（FCN），可以很好的突出端到端的空间显著性表征学习，并且在一个前馈过程中可以更快的对显著性进行预测。原论文中对该部分有更多的列举。

2.3 FP与SOD的关系

虽然SOD已经被广泛的研究，但是关于人类如何明确选择显著性目标并未深入探索，只是从数量的角度分析判断显著性与人类眼球运动一致。有关文献认为显著性判断与自由注视之间存在较强的相关性，Borji认为SOD模型应该包括两个步骤：选择要处理的对象和对目标区域进行分割。目前大多数SOD在第二部做的很好，却忽视了第一步的重要性，与FP数据集相比，大多数SOD数据集存在严重的偏倚，例如显著性对象较少。在此背景下，我们构建了视觉注意驱动的显著性目标检测模型，从人类视觉注意的角度考察显著性物体的属性，深入探讨人们在场景中观看的位置与显著性物体之间的关联。
接下来从网络结构的角度讨论SOD和FP中几个有代表性的深度神经网络模型。主要考虑主流的全连接的cnn显著性模型。正如图2所示：
在这里插入图片描述
大多数的深度学习网络仅考虑一个单任务，或SOD或FP，典型的结构分为三类：单流网络（标准的CNN结构fig.2a）、多流网络（多个网络流，每个单独的流以特定的分辨率输入进行训练，最终结合起来产生最终的显著性预测fig.2b）、跳层网络（同时捕捉高级对象和低级信息）。总之虽然使用不同类型的网络结构，但是以往的深度学习网络工作都是将FP和SOD视为两个不相关的任务。
不同于以往的工作将FP和SOD分开单独操作，论文利用注意力和显著性的关系，通过一个整合的深度神经网络学习结构将两个任务进行了耦合。目前为止，很少的方法考虑FP和SOD联合作用，有学者将预先训练的FP模型特征用作SOD的额外特征，不强调同时学习FP和SOD。论文中的算法如图2e所示，注视图（顶层捕获的高级知识）用于指导下层精确的对象级显著性检测。进一步构建convLSTMs堆栈，从粗到细，逐步细化显著性，逐步利用更详细的底层空间信息，以自上而下到端到端的方式学习FP和SOD。

3 论文中的方法

对于给定的一副输入图像，我们的目标是产生一副像素级显著性图，正如图3所阐述的，提出的ASnet首先通过学习人类注视图获取全局的、高层语义理解的信息。然后使用堆栈的convLSTM来进一步推理由粗到细的自上而下的显著性图。网络是同时训练预测注视位置以及以端到端的方式进行显著性目标检测。

3.1 注视点预测

底层卷积层使用了VGGnet-13的前五层，卷积之后跟着stride=2的下采样max-pooling层，为了保留更多的空间信息，我们在第五层之后不使用pooling层，值得注意的是，ASnet非常的灵活，很多网络结构都可以用来替换这部分结构，比如Resnet-101，DenseNet等。输入图片设置为典型的分辨率224×224×3，每个卷积层使用卷积核3×3，sigmoid为激活函数，最后的卷积特征图为14×14×512。结果是一个概率图 $P\in [0,1]^{14×14}$ ，被用做包含高层语义和全局语义的注视先验信息。注视点预测的模型通过最小化KL损失函数进行训练。
$L_{Att}(G,P)=\frac{1}{14×14}\sum_{x} ^{14×14}g_{x} log(\frac{g_x}{p_x})$
$G$ 是真值 $G\in [0,1]^{14×14}$ ， $g_x\in G$ ， $p_x\in P$ 。灰度注视图是通过使用小方差的高斯滤波器对二值注视图滤波获取的。KL-Div度量与交叉熵最小化等价，广泛用于视觉显著性预测。下节利用这种注视图作为产生显著性的先验，使得结果更好的匹配人类观察者的行为。

3.2 使用注视先验进行目标显著性检测

注视图 $P$ 给出了一个粗糙的但是包含视觉显著性信息的区域。许多语义分割、SOD研究表明神经网络具有很好的将高层信息和底层信息结合的能力。我们希望模型能结合注视图信息以自上而下的方式推理出精准的显著性目标检测。
在这里插入图片描述
具体的说如图3所示，SOD以自上而下的方式从每一层中整合信息。如图4，利用LSTM的序列属性以迭代的方式处理特征。

对其中的某一层来讲，convLSTM丢弃包含较少信息的特征，增强有用的信息，从而逐步生成改进的显著性特征。这样，每个convLSTM以以前的显著性估计为输入，并进行一系列迭代优化操作，生成细化的显著性对象预测图。ConvLSTM扩展了传统全连接LSTM消除空间特征。基本上是通过在LSTM中使用卷积运算代替点积运算来实现。convLSTM在输入到状态和状态到状态中都具有卷积结构，可以保留特征映射的空间信息，从而使我们的网络产生像素化标签。
convLSTM原理图如图5所示，与传统的LSTM相似，使用了记忆单元和门控单元。按序更新内部状态 $H$ 和记忆单元 $C$ 。其原理是根据三个sigmoid门控 $i, f, o$ 的值更新内部状态 $H$ 和记忆单元 $C$ 。例如，在时间 $t$ 输入了 $X_t$ ，若 $i_t$ 激活，则累计到记忆单元，若 $f_t$ 是on状态，记忆单元的上一状态 $C_{t-1}$ 被丢弃。是否将最新的记忆状态传播到最终状态 $H_t$ 由输出门 $o_t$ 控制。上述更新过程可以表示为：
在这里插入图片描述
$*$ 代表了卷积操作， $\circ$ 表示元素乘积。 $\sigma$ 是logistic sigmoid， $t a n h$ 是双曲正切函数。输入 $X_t,C_t, H_t, i_t, f_t, o_t$ 都是三维张量。 $W_S,b_s$ 是学得的参数和偏置。
在我们的例子中，convLSTM从卷积神经网络提取特征 $X$ 作为输入，然后为最终的显著性估计产生精准的显著性特征。由于输入为静态图片，输入特征在所有的步骤中都是相同的，即 $X_1=X_2=...X_t=X$ ，如图5。模型利用LSTM的周期性来迭代优化静态图像的显著性特征，而不是使用LSTM来建模数据的时间依赖性。
在这里插入图片描述
利用学习到的注视图 $P\in [0,1]^{14×14}$ 与convLSTM结合，在每一步中都利用注视图信息推断显著对象，并利用更新的记忆单元和隐藏状态优化特征（见图5b）。具体的说，我们首先通过一个包含64个滤波器的卷积层对conv5-3的特征响应进行压缩以降低计算成本，并采用sigmoid函数对特征响应进行正则化，使其处于P的相同范围[0，1]内。然后将注意的先验信息沿着通道维度进行连接，输入convLSTM。我们在最后输出的convLSTM后使用一个 $1 \times 1$ 的卷积核来获得显著性映射 $Q\in[0,1]^{14\times 14}$ 。
目前已经提出几种显著性度量方式，但没有一个单一的度量方式可以全面的度量模型的性能，因此我们结合精度、召回率、f-measure和MAE度量通过经典的加权交叉熵损失函数来度量模型的性能。 $S\in [{0,1}]^{14\times14}$ 为真值（ground truth）总的损失函数定义为：
在这里插入图片描述
$\alpha$ 是平衡系数，按照经验取值均为0.1， $L_C$ 交叉熵函数的权值，

$N$ 是像素总数， $s_x\in S,q_x\in Q$ 。 $\gamma$ 是显著像素与真值的比率。加权交叉熵损失处理显著像素与非显著像素的不平衡性。
$L_P,L_R,L_F$ 的计算类似 $p r e c i s i o n, r e c a l l, F - m e a s u r e$ ：
在这里插入图片描述
其中 $\beta^2=0.3$ （参考其他文献） $\epsilon$ 是正则项。 $L_{MAE}$ 表示Q和S之间的平均绝对误差：

根据P推理获得Q之后，下采样Q（ $28\times28\times64$ ）然后送入下一级convLSTM，上述过程在conv4-3，conv3-3，conv2-2，conv1-2层分别迭代。如此产生了一个自上而下又粗到细的学习框架。最后，ASnet输出一个高质量的目标检测mask（ $224\times224\times1$ ）。
图6阐述了整个显著性估计的过程。综上所述，ASnet能够有效的推断目标显著性源于：1）可学习的先验知识，2）循环结构更新特征，3）以自上而下的方式有效的融合底层空间信息。
在这里插入图片描述

3.3 实现细节

总损失。 $\{I_K\in R^{224\times224\times3},k=1,...K\}$ 是所有的来自SOD和FP数据集的训练数据，只有较少的数据可以既可以做SOD标注，又可以做FP标注，大多数的图片数据只能做其中之一。令 $y_{k}^A\in\{0,1\},y_k^S\in\{0,1\}$ 表示第 $k$ 张图片是否有注意力标注 $G_k$ 和显著性区域 $S_k$ ，我们最终的损失函数为：
在这里插入图片描述
$y_k^A,y_k^S$ 保证没有标注的不产生错误传播。 $l\in\{1,...,5\}$ 是第 $l$ 层convLSTM，通过层级损失函数，ASnet中每一层都可以直接从损失到隐含深度监督访问梯度。（啥？）设置convLSTM步长3，卷积核 $3\times 3$ 。
训练数据集。ASnet的另一个优点就是可以同时使用SOD和FP基准数据。考虑三个大规模显著性数据集：SALICON（广泛用于FP,有注视标注），THUS10K（用于SOD有显著性区域标注），DUT-OMRON（两种标注都有）。DUT-OMRON数据集，该数据集有5,168张具有挑战性的图像，并对FP和SOD进行了标注。注视图是由5名受试者在2秒的注视时间内的眼球追踪数据生成的。
这些数据集的详细描述见表1。为了研究DUT-OMRON上的显着性判断与人的注视点之间的关系，我们遵循[11]中的协议，使用分割掩码来解释注视点地图。具体来说，在计算AUC-Judd度量时(详细定义见4.1.2节)，将人的注视点作为正集，从其他非注视点采样的一些点作为负集。然后使用分割掩码作为二值分类器来分离阳性样本和阴性样本。相关得分0.767 (std = 0.098)显著高于概率(0.5)采用t检验(p < 0:05)，显示人类视觉注意与显著目标确定之间有很强的相关性。图7阐述了SOD和FP一致性。再次表明视觉注意力明显地倾向于显著目标区域。
在这里插入图片描述

训练设置。所有图片统一设置为 $224\times224$ 。在每次迭代中，为了保证SOD和FP的平衡性，从上述三个数据集选取图片，使用minbatch=10。对于THUS10K同时采用了数据增强的手段，例如翻转旋转（旋转对注意力有影响么）。使用预训练好的VGGnet初始化网络中的卷积层（conv1到conv5），其他层的参数随机分配。训练过程中，学习率设置为0.0001，每两个时期降低10倍。网络训练12个周期，整个训练周期为10小时，使用了NVIDIA TITAN X GPU和英特尔4.0 GHz处理器。
在这里插入图片描述
测试阶段输入ASnet的图片为 $I\in R^{224\times224\times3}$ ，经过一个前馈过程，可以得到注视预期 $P\in[0,1]^{14\times14}$ 以及一组convLSTM产生的显著性目标预测 $\{Q^l\}^5_{l=1}$ ， $Q^1\in[0,1]^{224\times\times224}$ 作为最终结果，ASnet不需要其他先验信息，比大多数深度学习方法更快。

4 实验结果

本节提出了定量和定性的实验，以彻底评估ASNet性能。具体来说，在4.1节中，我们提供了实验设置的细节，包括测试数据集、评估指标等。在第4.2.1节中，我们首先使用PASCAL-S和MIT1003数据集来检查用于FP任务的ASNet的性能。本实验的目的是研究先前习得的固定图的有效性，而不是将其与最先进的FP模型进行比较。然后，在第4.2.2节中，我们使用四个公共基准来评估ASNet的主要SOD任务的性能(PASCAL-S ， ECCSD ， HKU-IS和SOD)，与19种最先进的SOD模型相比。实验结果表明了算法的鲁棒性、有效性和高效性。为了更好地理解我们模型的不同方面的贡献，在4.3节，我们进行了详细研究。

4.1 实验设置

五个公共数据集包括PASCAL-S、MIT1003、ECCSD、HKU-IS和SOD被用来测试模型。如表1所示。
PASCAL-S：850张包含多个复杂对象，被试两秒内观察每张图片并根据注视数据生成显著标注。在此数据集报告FP和SOD两个任务的评估结果。
MIT1003：FP代表性数据集。包括779风景图片和228张肖像图。ground truth根据15名观察者做出的眼动数据。
**ECCSD **：典型的SOD数据集，1000张带像素级标注的自然图片，这些图像通常包含语义和复杂对象。
HKU-IS：大范围用于SOD。4447张图片至少符合下列标准之一：多物体重叠，物体触及图像边界，颜色对比度低。
SOD：包含300张图片，7名被试参加实验。

4.1.2 评价指标

对于FP任务，有几种方法来衡量模型预测和眼球运动之间的一致性。以往关于显著性指标的研究表明，使用任何单一指标都很难实现显著性模型的公平比较。本文综合考虑了标准化扫描路径显著性(NSS)、相似性度量(SIM)、线性相关系数(CC)、AUC- judd、shuffle AUC等多种指标，进行了定量实验。之所以选择这些指标，是因为它们被广泛接受，是评估显著性模型的标准。以上显著性评价指标大致可分为两类：
在这里插入图片描述
NNS

LCC

SIM

AUC， PR-curve， F-measure，MAE Score.