注意力方面好的想法_视觉场景的原始内容驱动的显着性,称为 ss-CSDN博客

本文链接：https://blog.csdn.net/NODIECANFLY/article/details/83386405

Batch Normalization应用
注意力机制：深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息

文章目录

《视觉注意模型在目标检测中的应用谢春兰》

模拟视觉注意机制的计算模型，研究目的在于模拟人类视觉的定位过程，快速搜索到容易引起观察者注意
的图像区域，为后续的图像处理任务提供便利。通过视觉注意机制，可以把复杂的视觉任务分解为一系列简单任务的组合，称之为视觉任务的串行化分解。这些的视觉任务的目的可以分为两种：定位和识别。在视觉注意过程中，并不要求一开始就对待注意区域做出精确详尽的描述，可以先从一些简单明显的特征，比如亮度、颜色、方向等，开始搜索和匹配。当目标物的这些特征与模型匹配成功后，再移动注意焦点，使目标位于注视中心，进一步提取特征并进行匹配，选择出图像中的待检测区域或目标。
视觉系统利用视觉注意机制保证所选择的注视点是图像中内容最丰富的区域。
普遍认为注意机制既可以是自下而上的，即图像数据驱动的，也可以是自上而下，即任务驱动的。
因此，在研究方法上就产生了两条路线，一条线路从低层的图像处理和分析方法入手，重点研究图像数据驱动的视觉注意显著图 的建立；一条线路从高层的知识表达和推理入手，重点研究视觉显著性度量方法，两种研究思路都取得了一定的进展。

本文主要针对以下问题进行研究：针对注意机制本身，如何更准确地模拟人类视觉信息处理过程，提取图像中特征显著的区域，处理好各视觉特征的竞争关系；针对视觉注意机制的应用，如何将视觉注意机制与具体的图像分析和处理任务相结合。

视觉注意机制：
通过视觉注意机制，迅速选择少数几个感兴趣对象进行优先处理，视觉注意的作用象信息处理中的数据筛选过程，优先让感兴趣的部分信息进入视觉感知和暂时记忆，并停留足够长的时间，使观察者能感觉到。数据驱动的注意模型，也被成为从下向上的注意，是在Treisman的特征整合理论基础上发展起来的。这种处理思路是从输入图像中提取多个特征，如：颜色、亮度、朝向、深度等，形成各个特征维上的显著图，对这些显著图进行分析、融合得到可能包含待注意目标的兴趣图，然后通过竞争机制 选出注意目标。目前大多数对视觉注意机制的研究都集中在这个方面。

1.高斯金字塔

解剖学和神经科学的研究发现，视网膜中，t),(Fovea)具有较小的感受野，外周(Periphery)的则较大，采样密度和视觉分辨率随着到视网膜中央的距离增大而降低，外围的信息被大量压缩啪’2¨。视觉注意模型采用多尺度空间模拟这种非均匀采样机制。
建立金字塔结构包括平滑(Smoothing)和降采样(Subsampling)和两个步骤。Itti模型采用离散线性高斯滤波器分别在输入图像的水平和垂直方向进行平滑和降采样，产生8个不同分辨率的子图像，原图像和各子图像形成一个9层的高斯金字塔结构。采用的平滑滤波器为[1 4 6 4 1]，采用与滤波器[1 1]/2 卷积实现对图像进行降采样，即以每两个像素的平均值作为下一层图像的像素的像素值。
在这里插入图片描述

2.初级视觉特征提取

这是任何视觉注意模型实现时的第一个模块，主要进行一些早期视觉特征计算。选取那些特征，特征怎样引导其后的注意是计算模型的关键问题之一。
Itti模型提取输入图像的亮度、颜色和方向特征作为初级视觉特征。（根据视网膜上的细胞功能的研究）

2.1 亮度特征的提取

在这里插入图片描述

2.2 颜色特征提取

2.3 方向特征选取
视觉皮层中V1区细胞的朝向性通常用Gabor滤波器表示。Gabor函数有很好的方向选择性。二维Gabor滤波器的数学表达式如下：

3.特征图计算

3.1 中央周边差操作
3.2 显著性度量函数

Visual Attention in Objective Image Quality Assessment: Based on Eye-Tracking Data

客观图像质量评估中的视觉注意：基于眼动追踪数据
Liu, Hantao, and Ingrid Heynderickx. “Visual attention in objective image quality assessment: Based on eye-tracking data.” IEEE Transactions on Circuits and Systems for Video Technology 21.7 (2011): 971-982.

1.概述

用视觉注意力的计算模型扩展了用于图像质量预测的不同度量，但到目前为止所得到的度量可靠性的增益是可变的。为了更好地理解在客观指标设计中包含视觉注意的基本附加值，我们使用了视觉注意力的测量数据。为此，我们进行了两次眼动追踪实验：一项是自由的观看，一项具有质量评估任务。在第一个实验中，20名观察者自由地观察了29张未受损害的原始图像，产生了所谓的自然场景显着性（NSS）。在第二个实验中，20个不同的观察者评估了原始图像的扭曲版本的质量。由此产生的显着性图显示出与NSS的一些差异，因此，我们将两种类型的显着性应用于预测JPEG压缩图像质量的四种不同客观度量。对于这两种类型的显着性，指标的性能增益得到改善，但在添加NSS时更大程度上得到改善。因此，我们进一步将NSS集成到几个最先进的质量指标中，包括三个完整参考指标和两个无参考指标，并评估其预测性能以适应更大的失真。通过这样做，我们评估了NSS的添加是否以及在多大程度上有利于客观质量预测。此外，我们还在设计基于注意力的指标时解决了一些实际问题。眼动追踪数据可供研究界使用。

1.介绍

这些所谓的客观指标的目的是自动量化感知的图像质量，因此最终作为人类观察者进行昂贵质量评估的替代方案。由于人类视觉系统（HVS）是图像质量的最终评估者，因此非常需要具有与人类感知一致的预测图像或视频质量的客观指标。
[4]–[18].在这些研究中，HVS的较低级别方面，例如对比敏感度，亮度掩蔽和纹理掩蔽，被成功建模并集成在各种度量中。[4] - [7]是将图像信号分解成各种频率和方向的通道，以反映神经细胞水平的人类视觉。然后实现经典HVS模型，例如每个通道的对比敏感度函数，以及模拟掩蔽的通道之间的相互作用。这些方法声称在感知上比MSE或PSNR更有意义。在[8] - [13]中，度量被设计为明确量化各种压缩伪像的烦恼。在该研究中，HVS的特性与伪影的特定物理特征相结合，以估计它们对人眼的超阈值可见性。通过心理视觉实验验证了在这些指标中包括HVS方面的附加值。
近年来，研究人员倾向于在客观指标中包括HVS的更高层次方面，例如视觉注意力。该研究领域的进展有限，主要是由于图像质量判断的关注机制尚未完全了解，而且由于精确建模视觉注意力的困难。目前的研究主要是基于优化预测感知质量的性能提升，以特定方式将视觉注意力纳入客观指标。例如，[19] - [23]中的研究是基于这样的假设：在一个引起观众注意的区域中发生的失真比任何其他区域更令人讨厌，并且它们试图利用局部显着性来加权局部失真，过程被称为“视觉重要性汇集”。

For example, studies in [19]–[23] are based on the assumption that a distortion occurring in an area that gets the viewer’s attention is more annoying than in any other area, and they attempt to weight local distortions with local saliency, a process referred to as “visual importance pooling.”

该方法背后的基本概念是分别考虑自然场景显着性（即，由原始图像内容驱动的显着性，并且称为NSS ）和图像失真，并且将它们组合以确定总体质量得分。在这种情况下，各种计算关注模型以不同的度量标准实现，从而导致性能增益，如[19] - [23]所述。因此，这种方法似乎是将视觉注意力纳入客观指标的可行方法。
然而，有一些与基于注意力的客观质量指标的发展有关的问题。首先，迄今为止在文献中发表的大多数研究采用现有的注意力模型来专门优化目标客观度量。计算关注模型可以在例如[24]和[25]中获得，但它们是为特定领域设计或选择的，因此不一定适用。此外，这些模型在预测人类视觉注意力方面的准确性并不总是得到充分证明，特别是在图像质量评估领域。因此，问题在于成功嵌入一个特定度量的注意力模型是否也能够增强其他度量的性能，即使如此，通过将此注意模型添加到特定度量的增益是否与可以获得的增益相当可以通过其他指标获得。其次，众所周知，眼球运动取决于分配给观察者的任务。因此，在图像质量评估期间NSS或显着性是否应包括在客观质量度量的设计中仍未得到充分研究。例如，尚不知道两种类型的显着性之间的差异是否足够大以实际影响客观质量度量的性能增益。第三，由于在实时处理中应用客观度量时计算效率成为重要问题，因此度量性能的测量增益应与相当复杂的注意力建模所需的额外成本相平衡。这意味着在实施基于注意力的指标之前，确切地知道包括视觉注意在内的是否以及在何种程度上可以改善现有的客观质量指标是值得的。最后，以感知有意义的方式结合视觉注意和图像失真的研究仍然是有限的，并且几乎不讨论将失真可见性和显着性组合的一般化策略。

显然，调查上述方面很大程度上依赖于所使用的视觉注意数据的可靠性。由于记录眼球运动是目前研究人类视觉注意力的最可靠手段[26]，因此非常希望使用这些“地面实况”视觉注意力数据来评估客观质量指标中注意力的附加值。这个想法最近在[27]中被利用，其中眼动追踪实验的数据被整合在峰值信噪比和结构相似性（SSIM）[14]度量中。然而，[27]中得到的结果与[19] - [23]中的结果不一致，即，当用局部显着性加权局部失真时，在度量性能方面没有发现明显的改进 。然而，应该注意的是，在使用双刺激损伤量表协议的图像质量评估期间收集[27]的眼睛跟踪数据。这意味着每个观察者在实验期间多次看到未受损的参考图片及其受损版本。结果，观察者可能已经知道在哪里寻找伪像，因此，受损图像上记录的眼睛跟踪数据可能受到图像失真的影响比自然场景内容更多。然后，简单的将这些数据加到对图像失真的评价上并不准确，这可以解释[19] - [23]和[27]之间结论的差异。为了评估这些假设，需要更多关于在设计基于注意力的度量标准时是否包括NSS或显着性的数据。这个问题在[29]和[30]中得到了解决，并且结果显示了当使用在自由寻找未受损图像期间获得的眼睛跟踪数据时，客观度量的可预测性的更大改善的趋势。然而，应该记住，[29]和[30]中报告的研究仅使用了有限数量的人类受试者（五个参与者自由地看图像，而两个对图像进行评分）。尽管如此，观察到的趋势与最近在[31]中发表的研究一致，表明添加了“基础事实”NSS [在这种情况下通过要求人类观察者选择参考图像中的感兴趣区域（ROI）获得] 提高了预测无线传输图像的感知质量的指标的性能。这些图像中的伪像通常聚集在图像的某些区域中。在这种特定场景中，使用NSS更实用，因为它可以作为辅助信息通过无线通信信道发送。因此，度量可以实时地在接收器用ROI与背景（BG）分段。

上面主要讲了利用注意力模型对现有NSS方法的性能提升，作者阐述了人眼运动轨迹应该是在自由观察状态下记录而并不是在观察者已知图像哪一部分会产生失真的情况下记录的

为了更好地理解在客观指标设计中包含视觉注意力的附加价值，我们从自由观察期间获得的眼动追踪数据开始，评估图像质量，如第II部分所述。然后将这两种类型的显着性添加到文献中众所周知的几个客观质量度量中。相应的结果在第III节中讨论，并揭示尽管两种类型的显着性都有利于客观质量预测，但NSS倾向于更多地改进度量的性能。因此，如第IV部分所述，我们整合了三个完整参考指标和两个NR指标的NSS，目的是提供更准确的定量证据，说明视觉注意是否以及在多大程度上有利于客观质量预测。我们还讨论了在设计基于注意力的指标时应用NSS的一些重要问题。此外，我们已经公开了眼动追踪数据[1]，以促进未来的图像质量评估研究。

2.人眼轨迹实验

人们普遍认为，在正常情况下，人眼运动与视觉注意紧密相关。因此，我们进行了眼动追踪实验以获得“地面实况”视觉注意力数据。实际上，进行了两次眼动追踪实验。在第一个实验中，通过让20名观察者自由地观察图像来收集LIVE数据库[35]的29个源图像的NSS。在第二个实验中，记录了20个不同观察者的显着性，他们被要求评估源图像的扭曲版本的质量。

A. Test Environment
B. Experiment I: NSS
要求A组的参与者自由地查看LIVE数据库的29个源图像[35]。每个参与者以随机顺序看到所有刺激。每个刺激显示10秒，然后在3秒内显示中灰色屏幕。要求参与者以自然的方式观看图像（“按照您通常的方式查看”）。
C. Experiment II: Saliency During Scoring
要求B组的参与者对源图像的JPEG压缩版本进行评分（使用MATLAB的imwrite函数）。为了包括广泛的质量，同时通过多次观看场景避免记录的显着性偏差，源图像被分成六组（即，五组，每组五个场景，一组四个场景，由 “S1”到“S6”）。每组场景在不同的级别压缩（即，Q = 5的S1，Q = 10的S2，Q = 15的S3，Q = 20的S4，Q = 30的S5，Q = 40的S6）。通过这样做，每个场景仅在每个主题中被观看一次，并且对于每个主题以不同的随机顺序被观看。要求受试者使用单刺激（SS）方法对每个刺激的图像质量进行评分，即，在没有参考的情况下。使用了具有语义术语“优秀”，“好”，“公平”，“差”和“差”的分类评分量表（由ITU-R [28]推荐）。每个刺激显示10秒，然后是如图1所示的评分屏幕。在实际实验之前进行了培训，其中参与者被指示完成任务和
可以让自己熟悉如何使用评分量表。

3. NSS与显着性在客观评价方法中的应用

A. Saliency Map
代表视觉注意力的显着性图通常从眼睛跟踪数据中的固定的空间模式导出。为了构建该映射，每个固定位置产生灰度色块，其活动是高斯分布的。高斯核的宽度（σ）近似于中央凹的大小（视角约2°）。然后如下计算所有受试者的所有注视的平均显着性图（MSM） ：
其中Si（k，l）表示尺寸为M×N像素的刺激Ii的显着图（即，k∈[1，M]和l∈[1，N]），（xj，yj）是空间坐标第j次固定（j = 1，…，T），T是所有受试者的所有注视的总数，σ表示高斯的标准偏差（即，在我们的具体情况下，σ= 45像素）。得到的显着图的强度线性归一化到范围[0,1]。图2示出了从实验I中获得的用于原始图像之一的眼睛跟踪数据导出的MSM以及在实验II中获得的用于相同图像的JPEG压缩版本的MSM（整个数据库的显着性映射）的示例。可以在[1]中访问。该实施例说明了源自实验I的NSS与来自实验II的得分期间的显着性之间的典型对应关系和差异。一般来说，最显着的区域在NSS和评分期间的显着性之间是可比较的，但是有一些偏差值得研究它们对客观度量的性能的影响。关于评分期间NSS和显着性之间差异的广泛讨论，包括适当比较方法的各个方面以及实验方案的影响，超出了本文的范围，将在单独的贡献中处理。

这一段介绍了根据人眼注视实验得到的图像的显著性区域，和其他只根据算法得出显著性区域的方法不同，这个方法使用了实验追踪人眼轨迹来标识显著性的操作，在获得图像的显著性效果上的确很好，但是这只能分析的是LIVE数据库中的图片，怎样找到所有图片的显著性区域？
B. Added Value of NSS and Saliency During Scoring in Objective Metrics
基于从我们的实验中获得的眼睛跟踪数据，我们评估添加显着性是否以及在何种程度上有利于客观度量的预测性能。在此评估中，我们比较了在评分期间添加NSS与显着性时获得的性能增益。为此，我们使用我们在实验II中获得的主观分数，并且我们尝试用几个众所周知的客观度量来预测这些分数，所有这些分数都用两种类型的显着性加权。
1. 主观评分：在实验II中，20个人类受试者对29个JPEG失真图像的质量进行评分。我们将原始质量等级（即“优秀”= 5，“好”= 4，“一般”= 3，“差”= 2，“坏”= 1，如图1所示）转换为数字，并且计算[13]中描述的平均意见得分（MOS）。得到的MOS如图3所示。
2. 客观方法：添加显着性的评估使用四个客观度量（即，三个FR度量和一个NR度量）来执行，其迄今为止在图像质量社区中被广泛接受以评估JPEG压缩图像的质量。FR方法有PSNR，SSIM，VIF。NR方法有GBIM这里说一下GBIM：广义块边缘损伤度量[8]是量化离散余弦变换（DCT）编码中的块伪像的最熟知的度量之一。它测量块效应作为利用加权函数缩放的块边界（即，称为块边缘）之间的像素间差异，其解决HVS的亮度和纹理掩蔽。
  上面提到的客观指标都是在空间领域制定的。他们在局部估计图像失真，产生定量失真图，其提供空间变化的质量劣化曲线。
3. 加入显著性图：通过局部加权失真图，将显着性（即，NSS或得分期间的显着性）包括在度量中，如图4（b）和（c）所示，用于NSS加权的SSIM失真图和评分期间的显着性
  请注意，在GBIM的情况下，度量仅在块边缘周围计算。因此，对其显着区域的失真图进行加权实际上对于显着区域中的块边缘赋予比非显着区域更大的权重。
  将显著性增加到PSNE，SSIM，VIF，GBIM中，得到了8个基于显著性的方法，分别是WPSNR−NSS, WPSNR−SS, WSSIM−NSS, WSSIM−SS, WVIF−NSS, WVIF−SS, WGBIM−NSS, and WGBIM−SS, 他们的定义如下：
  ，
  其中失真图是用上面的常规方法计算得到的，S代表着从眼球追踪实验中得到的显著性图。WMetric代表着基于注意力的模型。应该注意的是，这里使用的组合策略是一个类似于[19] - [23]中的简单加权函数。更复杂的组合策略可以进一步改善度量标准的性能，如第IV节中所讨论的。
  可以从显著性图的计算，以及和常规方法的结合角度去思考
4. 实验结果：正如视频质量专家组[38]所规定的，客观度量的表现取决于其预测主观质量评级（MOS）的能力。实验结果如图可以看出增加了NSS和显著性图后所有方法的性能都有提升。
  实验结果还倾向于表明，将NSS添加到度量中会产生比在评分期间增加显着性更大的性能增益。
  基于上述结果，我们可以得出结论，由于对NSS的评分而导致的显着性的微小差异足以在包括对客观度量的视觉注意时产生性能增益的一致差异。在评分期间获得的相对较低的性能增益可能是由于这种显着性由于恼人的伪像的分散能力而更多地扩散到图像中的背景区域的事实。我们的结果倾向于支持第一部分中的假设，一方面在[27]和[19] - [23]中给出的结论不同。当为客观指标添加显着性时，它应该是NSS，当人们第一次看到无失真图像时获得。图像失真本身的显着性或分散能力是通过度量来解决的（特别是当HVS方面，例如对比敏感度和掩蔽已经包括在失真图中时）。

4. 在Objective Metrics中添加NSS：基于LIVE数据库

为了进一步评估客观指标中视觉注意力的附加价值，我们将从实验I中的眼动跟踪数据中获得的NSS纳入文献中可用的各种客观方法，并将这些基于注意力的方法的性能与相同的没有注意力模型的方法进行比较。基于评估，我们解决了与客观指标中视觉注意应用相关的一些技术问题。更具体地说，我们讨论了注意力模型和图像内容 和组合策略的效果。

A. 客观方法： PSNR，SSIM，VIF，GBIM，NRPB
B. 整体性能的评估

作者认为有些性能预测效果提升并不大的原因有两个：
1. 某些方法对不同失真类型的预测性能是不同的，当该方法针对某一类型的失真已经有很好的预测性能时，再结合我们的NSS，就不会有很大的性能提升。
2. 在由GBLUR扭曲的图像的特定情况下，一些度量可能将非预期（高斯）模糊与BG中的预期模糊混淆以增加深度场（即，具有故意模糊BG的高质量前景对象）。添加NSS降低了BG中模糊的重要性，因此可以提高度量的整体预测性能。
C. 统计学意义
为了检查具有NSS的度量与没有NSS的相同度量之间的性能的数值差异是否具有统计显着性，我们进行了一些假设检验以提供关于基于注意力的度量的优越性的结论的统计稳健性。如[38]中所建议的，该测试基于DMOS与度量预测的质量之间的残差（以下称为MDMOS残差）。在能够进行参数测试之前，我们评估了M-DMOS残差的正态性假设。基于峰度的简单标准（如[40]中所用）用于正态性; 如果残差具有2到4之间的峰度，则假设它们是正态分布的，并且可以使用参数测试来测试两组M-DMOS残差之间的差异。配对样本t检验从零假设开始，该假设表明一个度量的残差在统计上与NSS的相同度量的残差在统计上是不可区分的（具有95％置信度）。
D. 评价图像内容的影响
图像上显着性的分布在很大程度上取决于其内容，因此，研究包括视觉注意客观度量的附加值是否依赖于内容也是有意义的。内容对NSS的影响通过计算每个图像来量化从实验I获得的MSM与每个个体显着图（ISM）（源自个体受试者的固定）之间的相关性来量化。两幅显著性图之间的相关性通常用系数ρ，范围 [-1,1]。

该平均ρ值量化了观察SS时人类受试者中眼睛跟踪行为的变化。在所有受试者上平均的ρ的大值表示受试者中的显着性的小变化，而ρ的小值表示显着性在受试者中广泛传播。对于这些图像，显着性会聚在MSM中的这些特征周围。两组图像之间显着性的差异显然是由图像内容驱动的。
为了在为客观指标添加显着性时评估性能增益中的内容依赖性，我们在第IV-B部分重复了一次针对“set-low”的源图像的实验，并且对于“set-high”的源图像重复了一次。总之，我们的研究结果表明，在应用显着性时，客观度量的性能增益取决于图像内容以及特定的度量设计。

E. 评估结合策略的影响——怎样结合显著性模型
到目前为止，基于线性加权组合策略的客观指标增加了显着性。这种方法简单直观，并被广泛采用，以显着图像的局部失真[19] - [23]。我们的第III和第IV部分的结果证明了使用线性组合策略的一般有效性。然而，这种策略在处理更苛刻条件下的某些扭曲方面存在局限性[42]。图12示出了以0.43b / p的比特率压缩的图像JPEG，以及从我们的眼睛跟踪数据获得的其相应的NSS。由于HVS中的纹理和亮度掩蔽[10]，该图像在更显着的区域（例如，白塔的前景）中呈现出难以察觉的块效应，并且在较不显着的区域（例如，BG）中呈现相对恼人的块效应。天空）。在这种情况下，将失真和显着性图与线性组合策略相结合本质上低估了BG中伪像的烦恼，以及它们对质量判断的影响。为了量化在客观度量中线性地添加显着性对要求严格的图像的质量预测的影响，从LIVE数据库中选择了九个图像的子集。1）具有均匀分布在整个图像上的可见伪像的图像，以及2）具有由不太显着区域中的内容掩蔽的伪像的图像，但是在更显着的区域中显示可见伪像。显然，对于这两种类型的图像，使用线性组合策略添加显着性是合理的。
因此，这些发现表明线性组合策略不一定适合于在客观指标中增加显着性。因此，从度量优化的观点来看，值得研究自适应组合策略，例如在[23]和[42]中讨论的。

5. 讨论

在本文中，我们评估了通过在客观质量方法中引入视觉注意力可以获得的预测准确性的内在增益。该评估针对多种但有限的图像集执行，并且主要针对影响全局图像的失真。我们得到的结果表明，加权基于像素的失真图具有局部显着性的附加值。当使用NSS扩展客观指标时，增加值的数量大于在观众评估图像质量时记录的显着性。性能准确度的实际增益高度依赖于图像内容，失真类型和客观度量本身 。与NSS分布在整个图像上的图像相比，具有清晰ROI（region-of-interest）的图像表现出更大的增益。此外，对于已经显示与给定失真类型的感知质量高度相关的客观度量，增益很小。

虽然显示了明显的结果，但这里报告的研究有一些局限性。首先，如上所述，所使用的图像集具有合适的尺寸，但是可以扩展以便以更系统的方式研究图像内容对预测准确度的增益 的影响。其次，大多数图像随着全局影响图像质量的失真而劣化，即，伪像均匀地分布在整个图像上。在特定应用中，例如在无线成像中，伪像（失真artifacts）可以局部地发生，即，仅在图像中的一些随机但有限的位置处发生。虽然我们没有专门研究这种类型的失真，但我们希望在这种类型的失真的质量预测指标中引入视觉显着性仍然是有益的。至少，[31]中报告的结果支持这一假设。最后，本文所述的预测准确度增益基于眼动追踪记录。这些记录本质上存在一些不准确性，这可能会限制我们结论的整体可靠性。然而，我们已经证明，当使用经过良好校准的设备和明确定义的协议时，记录的显着性数据是高度一致的; 对各种实验室收集的数据甚至显示了一致性[43]。当然，使用眼动追踪数据对于实时应用来说是不现实的。因此，在客观度量的实际实现中将需要视觉注意模型。由于大多数视觉注意力模型的可靠性仍然有限，我们期望在实时应用中可以获得的预测准确度的实际增益低于我们在此处显示的，至少在视觉注意模型的当前健全性方面。在未来几年，视觉注意模型的健全性可能会提高，但最有可能的代价是计算成本。