【摘要】
近年来,视觉显著性建模取得了显著的进展。我们的兴趣在于视频的显著性。由于视频与静态图像有着根本的不同,人类观察者对它们的看法也不同。例如,每个视频帧被观察到的时间是几分之一秒,而一个静止的图像可以轻松地观看。因此,视频显著性估计方法应该与图像显著性估计方法有本质区别。
本文从人们观看视频的方式出发,提出了一种新的视频显著性估计方法。
前一帧的地图作为前提条件,通过预测给定帧的显著性地图来模拟视频的连续性。此外,通过将突出位置限制在精心选择的候选集中,提高了精度和计算速度。我们使用两个凝视跟踪视频数据集来验证我们的方法,并表明我们优于最先进的技术。
【1 介绍】
预测人们看视频的位置在许多应用中都是相关的。例如,在广告中,制作人知道关键概念是否能抓住观众的眼球是很重要的。此外,如果一个人知道人们在视频中可能看的地方,相关内容就可以放在那里。另一个可能利用人类目光预测的应用程序是视频编辑[1]:知道观众的目光可以帮助创建更流畅的镜头转换。此外,我们假设可靠的注视预测可能驱动注视感知视频压缩或关键帧选择[15]。图像显著性在计算机视觉领域得到了很好的探索。众所周知,颜色、高对比度和人物都能引起我们的注意。当在几秒钟内查看图像时,人类观察者可以从容地在一段时间内扫描多个感兴趣的区域,而不同的观察者可以通过图像内容观察到不同的路径。相比之下,观看动态内容视频的人每一帧的观察时间只有几分之一秒
图1所示。图像显著性与视频显著性。
同样的图像被展示给人类观察者两次:一次静止3秒(a),一次嵌入视频(b)。
覆盖在图像上的显著性地图表明,视频显著性更紧密,更集中于单个物体,
而图像显著性覆盖了几个有趣的位置。
接着上文 (相比之下,观看动态内容视频的人每一帧的观察时间只有几分之一秒, 所以注视不了那么久,在视频里更注视着说话者)
因此,它们通常专注于每个帧[24]的单个最显著的点。在观看静态图像和视频帧时,人的注视的区别如图1所示。可以看出,观看图像3秒的人看到了几张脸,而观看视频中作为帧的同一图像的人只关注了一张脸,即说话者的脸。
在这项工作中,我们提出了一种方法,预测显著性:通过明确地解释随着时间的注视过渡。
我们不是试图单独模拟人们在每一帧中看哪里,而是根据前一帧的注视图预测凝视位置。
通过这种方式,我们处理凝视转换的帧间动态,以及帧内的突出位置。
我们学习了一个模型,从最近的前一刻给定的固定地图------- 预测一个帧的显著性地图,并在一个大的现实视频集上测试它
关键贡献:
(候选)
贡献 1.观察到视频中的显著性通常是非常稀疏的,在每个像素计算它是冗余的。
相反,我们选择一组候选注视位置,并只计算这些位置的显著性。
利用静态、动态和语义线索提取候选词。实验结果表明,基于候选图像的方法优于基于像素的方法,且明显优于基于图像显著性的方法。
贡献2:(条件---前一帧)
本文是一种学习条件显著性的方法。
视频是一串帧,每帧中人的注视取决于之前注视的位置。而图像中,每个图都假定是独立观看的。
本文提出了一种在连续帧上 学习 条件概率的方法。本文的其余部分组织如下。第二节回顾了之前在心理学、图像和视频显著性方面的工作。第3节提供了所提方法的高级概述。第4节解释候选人选择,第5节重点学习条件概率。第6节给出了实验验证,并与像素级计算进行了比较,第7节给出了结论。
【2 相关工作】
几十年来,科学家们一直在研究人类的视觉注意力。在早期的著作中,有人提出将有意注意和非有意注意分开。
【前人文献】
【3 动机和概述】
之前显著性建模方法都是计算每个像素的显著性值。
我们: 建议在一个小的候选位置集计算显著性,而不是在每个像素。
我们的动机是基于对人类凝视模式的两个观察:
1. 首先,我们观察到图像显著性研究集中在一个单一的图像刺激,没有任何事先。
(这通常是通过“重置”参与者的目光来实现的——在中心呈现一个黑色的屏幕或一个单一的目标。)在视频中,这不是真实世界观看的一个可能的初始条件。
在这里,凝视在不同帧之间变化不大,当它发生显著变化时,它高度局限于局部区域。
因此,我们的解决方案只考虑少数几个似是而非的候选区域,并对这些区域进行总体处理,而不是逐像素处理。
2.第二个观察是
当观看动态场景时,人们通常通过将目光转移到场景中一个新的有趣的位置来跟随动作和人物。
(所以动态场景会产生稀疏的候选集)
专注于显著位置的稀疏候选集使我们能够以相对较小的计算努力明确地建模和学习这些过渡。
总结:
为了适应这些观察结果,我们的系统由三个阶段组成:
- 识别每帧的候选注视位置(章节4), 识别位置
- 提取这些位置的特征(章节5.1), 提取特征
- 学习或预测每个候选注视概率(章节5.3)。 学习与预测
学习和推理遵循同样的三个阶段。
【4 候选人提取】
首先介绍一种检测候选区域的方法。
我们考虑三种类型的候选。
- 静态候选指的是由于局部对比或独特性而引起注意的位置,而与运动无关。
- 运动候选区域反映了由于帧之间的运动而有吸引力的区域。
- 语义候选是那些来自高级人类视觉处理的候选者。
静态候选位置和语义候选位置分别是 每个视频帧生成。
候选运动是利用相邻帧对之间的光流计算的,因此隐式地解释了视频中的动力学。
每个候选位置由一个高斯斑点表示,特征是其均值的空间坐标和其协方差矩阵。
【4.1 静态的候选】
因为视频是由单独的帧组成的,所以我们从那些因 静态提示而吸引人们注意的候选区域开始。
对于给定的感兴趣框架,我们计算由Harel等人[12]提出的基于图的视觉显著性(GBVS)。
选择GBVS,主要有两个原因:
(i)已经证明GBVS可以准确预测静态图像[3]中的人类注视,
(ii)与更准确的方法[18]相比,GBVS的计算速度更快。
我们希望:在图像显著性地图,找到其中最有吸引力的候选区域。
1. 将归一化显著映射作为一个分布,并使用它对大量随机点进行抽样。
(这些点使用mean shift[7]进行聚类。群集的中心是候选人的位置。)
2. 估计各候选项的协方差矩阵:通过对候选位置附近的显著性地图进行高斯拟合。
邻域大小设置为帧高的1/5,以避免与其他候选帧的干扰。
(我们有意不使用高斯混合模型,因为我们更喜欢在更宽的分布轮廓上捕捉峰值。)
图2 (a)提供了一个静态候选对象的示例。候选人是围绕图像最显著的区域创建的,比如脸和背面的标签。它们的大小反映了该地区的大小。此外,一些候选人占据了不太突出的区域,比如两个条形图。
如下图2(a): 两个条形图就是最左边那个 三个圈都选择了好家伙
【4.2 运动的候选】
在独立帧中建模显著性对于视频来说是不够的,因为它忽略了动力学。众所周知,动作能引起人的注意。(过渡 还需要运动)
因此,下一步我们将运动线索纳入我们的突出候选集合。
1. 计算连续帧之间的光流[22]。
我们只保留光流大小,滤除不可靠的弱流像素。
由于我们对局部运动对比感兴趣,我们应用高斯差(DoG) 过滤 光流幅值。
2. 从DoG地图中创建运动候选,就像从图像显著性地图中创建静态候选一样(即,mean-shift聚类和高斯拟合)。
图2 (b)说明了产生的候选运动的一个示例。在这段视频中,这名男子弯着胳膊,用刷子刷墙。因此,刷子和肘部为 检测运动的候选
【4.3 语义的候选人】
我们希望向集合中添加语义候选项。这些候选区域代表了由于更高层次的视觉处理或其他先验而引起人类注意的区域。
考虑三种类型的语义候选者:
1. 因为观看视频的人倾向于屏幕中央。因此,我们在帧的中心创建一个恒定大小的候选中心。(在一个帧里 框一个小框作为 候选区域)
人们也知道,当他们脸很大的时候:会盯着脸;在更远的照片:会盯着躯干。
为了检测这些,我们在感兴趣的帧上运行一个人脸检测器[4]和一个小波检测器[5]。这些提供了位置和脸部和身体的大小。
2. 还对检测到的边框 进行均值漂移非最大抑制 ------------防止重叠重复检测
(小框别重复检测)
由于探测器可以在不同的尺度上发现人脸和身体,所以我们对大小探测的处理是不同的。
- 带有非常小的边界盒(小于帧高度的15%)的检测被作为噪声拒绝。
- 对于剩余的小探测,我们在它们的中心创建一个单一的候选。
对于大型检测,我们创建了几个候选对象:4个用于身体检测(头部、肩膀和躯干),3个用于面部检测(眼睛、鼻子和嘴巴)。
候选对象的位置固定在检测到的边界框内,协方差与边界框的大小成正比。
所有三种类型的候选人——中心、脸和身体——都在图3中进行了说明。
图3: 语义的候选。中间的候选是红色的,绿色的椭圆是人脸,蓝色的是人体。
由于身体很大,它由四名候选人代表。这些候选区域覆盖了框架中大多数语义突出的区域 。
【5 目光动力学建模】
有了一系列候选人后,要选出最突出的一个。我们通过学习转移概率来实现:
从源帧中的一个注视位置转移到--------------目标帧中新的注视位置 的概率。
这种转变不同于扫视——我们处理的是整个分布的转移,而扫视是注视点的快速移动。
注意,源帧不一定是紧接的前一帧,但可以是时间更早的几帧。这使我们能够在视频中模拟注视动态,并更准确地预测显著性。
【5.1 特征】
为了模拟关注焦点的变化:将特征向量&&&&&&&&给定帧中的 (源和目标) 候选对联系起来。
为每个有序的(源,目标)候选位置对 创建特征向量。
特征可以分为两组:目标帧特征和帧间特征。尝试使用源帧特征--------------导致过拟合
所以,我们使用静态、运动和语义特征,如下所述。
作为一个低水平的空间线索,我们使用候选位置附近的局部对比。
计算局部对比度为:(1), 其中Iminn、Imaxn分别为本邻域内强度的最小值和最大值。
Cg是一个全局对比度标度,计算公式为:(2)其中Imin和Imax分别是帧的最小和最大强度。
此外,我们计算候选邻域的平均GBVS,并将其加入特征集
为了表示局部运动:
- 首先计算光流的垂直分量和水平分量的高斯差(DoG)以及其大小。
- 然后,我们将目标候选领域内 每个DoG地图的平均值添加到特征向量中
- 最后,我们添加了一组语义特征:
1 添加了人脸和人的检测分数(如附录A所述)。
2 添加了离散的候选标签:运动、显著性、脸、身体、中心和相应区域的大小。
(为了说明中心偏差,我们使用从候选位置到框架中心的欧几里得距离。)
【5.2 用于训练的凝视转换】
我们提出的学习问题分类:
注视是否发生从一个给定的源候 转移 到一个给定的目标候选。
为了训练 根据上一节描述的基于特征这样的分类器:
(i)选择相关的帧对,(ii)标记这些帧之间的积极和消极注视转移。
(i)为了选择一组相关的帧,使用最明显的注意力转移的地方——场景剪切。使用场景剪切检测器[32]找到训练集中的所有剪切,并将源帧设置为在剪切前的最后一帧。因为人类需要5到10帧的时间来关注一个新的感兴趣的对象,所以我们将目标帧设置为剪切后的15帧。这确保了我们不会从不完整或局部的注视转换中学习。
对于负样本,我们从每个场景的中间选择帧对。为了一致性,我们设置源和目标之间的差距为15帧
(ii) 接下来,我们需要获得正面和负面凝视转换的例子
将人的注视的真实值(对于源框架和目标框架) 聚集成集群 。通过平滑注视地图并对其设置阈值来实现的------去保持前3%。
这提供了一系列不同的注意力区域。区域的中心是注意力的焦点。以源帧的焦点为源位置。
我们将所有的源位置和目标候选 对作为我们的训练集。
与目标帧焦点附近的目标候选配对被标记为积极的。所有其他对都标记为负。我们在图4中演示了这种标记。
图4: 目光转移的正面和负面例子。绿色(正)和红色(负)线标记了可能的源到目标转换对。
过渡对覆盖在源(顶部)和目标(底部)帧上,以及源(品红)和目标(黄色)注视图。
【5.3 学习转移概率】
系统的最后一个阶段学习分类器是否发生转换,即每对源-目标转换的概率。
计算每个特征的均值和其在训练集上的标准差。将每个特征归一化,使其均值和单位标准差为零。归一化参数与训练好的分类器一起存储。
我们使用归一化特征向量及其标签----训练标准随机森林分类器[21]。在推理阶段,训练模型对源候选和目标候选之间的每个转换进行分类,并提供一个置信度值。我们使用归一化置信作为转移概率P (d|si)---------从源si到当前目标候选d的转移概率
通过将所有转换聚集在一起,我们得到候选的最终概率如下:(333333333)
Sal(si)是源候选显著性,S是所有源的集合。最后,我们以类似于使用高斯混合模型创建连续分布的方式生成显著性图:我们用对应的高斯协方差代替每个候选,并使用候选显著性作为权重将它们相加。
【6 实验验证】
数据集情况介绍
【6.1 候选人的核实】
首先,我们希望证明我们有限的候选集可以很好地模拟人类的注视。
我们计算“足够接近”某个注视点的候选地点的数量。
如果一个注视点落在由候选对象协方差矩阵定义的椭圆内,我们称之为命中。
为了定义椭圆,我们在σ半径处对相应的高斯函数进行阈值。DIEM中所有帧的命中率直方图如图5 (a)所示。所有帧的平均命中率为81%,中位数为88%。这意味着在大多数帧中,我们的候选集可以很好地模拟大多数注视。此外,图5 (b),(c)显示了人类注视点和我们的候选注视点之间的视觉比较。
图5 我们的候选对象涵盖了大多数人类的注视目标。
(a)候选物体内部注视点每帧命中率的累计直方图。可以看出,大部分的定位点都被候选人们很好地捕捉到了。(b), (c)示例帧,以及人类注视点(绿色)和我们提取的候选帧(黄色)。我们的候选人覆盖了大部分注视点。
【6.2 绩效评估】
为了评估所提方法的准确性,我们遵循Borji等人[3]提出的训练/测试方案。
测试集包含20个具有代表性的视频的所有帧。这个模型在剩下的64个视频上训练。
计算从源帧中的一个位置转移到目标帧中一个位置的概率-------按顺序计算视频显著性。
对于视频的第一帧,我们使用中心的单个位置作为源。
对于每一帧: 从作为源的前一帧中使用预测显著性地图 计算 到其候选集 的转移概率 。
这种方法不会随着时间推移而漂移,因为转换在很大程度上独立于源帧属性(回想一下,源帧的特征被排除,目标候选帧是独立计算的)
【6.2.1 评估过程】
由于AUC只考虑真实注视位置的显著性结果,因此无法很好地区分峰值显著性图和平滑显著性图。换句话说,AUC单独考虑每个注视点,而不是将注视点视为一个分布的样本。
当与地面真实值的紧密分布进行比较时,χ2距离将更倾向于峰值显著性地图,而不是普通的显著性地图。对于χ2,较低的值意味着较好的结果
我们将由注视跟踪器记录的稀疏地面真实注视图,通过与一个常数大小的高斯核卷积,卷积它成为一个密集的概率图。
与五种方法比较
方法比较
【6.22 结果】
选候选集 做实验 比那些用像素做候选集的实验 效果更好
下面是附加:
我们使用双线性插值将所有视频向下采样到144行,同时保持长宽比
确定运动候选时,我们过滤光流量级低于2像素的所有区域
差分高斯滤波,我们使用σ = 10和σ = 20像素。
对于中心候选,我们设置σ = 1/8·(乘以???)帧高 = 18像素
在面部和身体候选时候的大小取决于检测的高度。
如果检测小于0.4·FrameHeight,则认为是一个小目标,并使用σ = 1/3·DetectionHeight的单个候选目标建模。