【谷歌翻译】EBS : Encoding based Saliency Detection for Videos and Images

最新推荐文章于 2020-10-29 16:18:39 发布

Min's Blog

最新推荐文章于 2020-10-29 16:18:39 发布

阅读量344

点赞数

本文链接：https://blog.csdn.net/weixin_36899784/article/details/80356786

版权

＠cited:25 (google scholar)

摘要：

我们提出了一种新颖的视频显着性检测方法来支持人类活动识别和活动检测算法的弱监督训练。最近的研究强调需要分析视频中的重要信息，以最大限度地减少数据集偏差或监督活动检测器的弱标签培训。与以前的方法不同，我们不依赖于通过其他眼睛注视或注释数据给出的训练信息，但提出了一种完全不受管理的算法来查找视频中的显着区域。一般来说，我们对外观和动作线索都采用了形位分离的格式塔原则。我们引入一种编码方法，通过近似联合特征分布可以有效地计算显着性。我们在几个数据集上评估我们的方法，包括具有混乱背景和相机运动的具有挑战性的场景，以及图像中的显着物体检测。总体而言，我们在估计地面真实眼睛注视和活动注释方面与最先进的方法相比表现出良好的表现。

1. Introduction

最近估计显着图或者预测图像或视频中的人类注视吸引了大量研究兴趣。通过基于显着性图选择有趣的信息，可以过滤不相关的图像或视频区域。因此，显着性估计对于大型应用领域来说是一个有价值的预处理步骤，包括活动识别，对象检测和识别，图像压缩和视频摘要。显着区域包含每个定义的重要信息，这些信息通常与其任意的周围形成对比。例如，在网页上搜索“骑马”标签，可以返回在任何背景或背景中都具有相同特定外观（某人骑在马上）和运动（骑乘）的图像和视频。因此，含马的区域是同名地区，一般而言，马至少应该是最显着的区域的一部分。

作为进化的结果，人类视觉系统已经发展为一个折衷系统，能够在短短的几分之一时间内识别和分析复杂的场景。因此，计算机视觉研究的许多努力已被用于预测人类的目光。通过眼动追踪捕捉注视点和扫视运动[19,21]，使我们能够创建训练数据并分析空间和时间注意力转移。众所周知，人类会被运动[12]或其他人类目标吸引[13]，如果分辨率足够高，就会观察到人的脸。此外，如果内容按照图像进行分析或嵌入视频中，人类显着性图非常稀疏并且会发生变化[28]。除了缺点，即有足够数量的个人必须观察相同的图像或视频才能获得显着的显着性地图，上述人类偏好甚至可能会误导普通显着性物体检测任务。

这些考虑引导我们形成了这项工作的目标：找到同名并因此显着的视频或图像区域。与估计人类凝视相反，这些显着区域不需要与人体凝视点重叠，但必须确定同名区域。在我们的显着性估计方法中，我们实施了图形 - 背景分离的Gestalt原则，即视觉上被包围的区域更可能被视为不同的对象。与全局强制将对象从图像边界分离的先前方法相比，例如， [32]，我们不需要这样的假设，而是通过几个尺度上的局部搜索找到视觉隔离的区域。

我们的贡献如下。我们提出了一种编码方法，分别基于分析图像或视频内容来近似特征通道（颜色或运动）的联合分布。这种高效的表示使我们能够在多个尺度上扫描图像，在本地估计前景分布，而不仅仅依赖全局统计。最后，我们提出了显着性质量度量，它允许动态加权并组合不同地图的结果，例如，外观和动作。我们针对具有挑战性的活动视频和显着物体检测任务评估了基于编码的显着性估计（EBS），并针对各种最先进的视频和图像显着性方法进行了基准测试。

算法流程：

3. Encoding Based Saliency

3.1. A Bayesian Saliency Formulation

在输入图像上执行基于直方图的贝叶斯分类器，来区分显著的前景像素和周围的背景像素。

：区域上的直方图的第ｂ个竖条

：像素属于的竖条

:长方形的物体区域

:物体区域周围的区域

3.4. Processing Motion Information

研究视频显着性的相关方法，我们发现光流信息通常并不重视外观信息。像纯光流大小[21,23]，运动梯度[27]或简单属性（如速度，加速度或平均运动[33]）的测量分别独立处理，无需运动方向信息。然而，考虑到图1中的伪彩色光流表示，我们可以直接观察到，如果存在大的全局相机运动并且运动梯度产生嘈杂的响应，则幅度或简单属性很可能失败。另一方面，我们观察到一个非常具有辨别力的场景情景的视觉表示，这激励我们更仔细地研究这种光流的伪彩色表示。在[24]之后，在U（x）和V（x）中给出的水平和垂直方向的运动分量被映射到一个色轮，代表红色，黄色，绿色、蓝色与心理原色（红绿蓝）之间的转换和关系。色轮，也称为Munsell色彩系统，排列颜色，使得相反的颜色（在光谱的相对端，例如红色和蓝色）在轮子上彼此最远。同样，我们想要表示相反的运动方向彼此最远。

因此，我们直接将我们在3.2节和3.3节中描述的方法应用于伪彩色运动表示。Û（x）和V（x）是由相应帧的最大幅度归一化的光流分量，我们计算它们的幅度M（x）和方位Θ（x）。方向Θ（x）定义色轮中的色调值，而饱和度由M（x）控制。应用预先计算好的色轮查询表，我们直接生成一个三维伪彩色图像作为我们的运动显着性管线的输入。与外观似然图ΦAL和ΦAG类似，这产生了基于运动的局部ΦM L和全局ΦM G似然图。虽然相对简单，但实验性评估显示，与本节开头讨论的相关方法相比，此运动表示的有益行为。

3.5. Adaptive Saliency Combination

考虑到上述步骤，我们为局部和全局估计外观（即ΦAL和ΦAG）和运动（即ΦM L和ΦM G）显着性产生多达四个前景图。以前的作品要么直接合并线索[27]，要么执行像伪不变性[31]这样的粗糙全局测量，而不包含地图的空间分布。相反，我们通过计算每个映射的加权协方差矩阵来逼近我们各个显着图中的不确定性。这使我们能够处理个别地图的不准确性。显着映射Φj的加权协方差如下给出：