Spatio-Temporal Object Detection Proposals翻译

摘要:视频中的动作和事件的时空检测是一个具有挑战性的问题。除了与识别相关的困难之外,视频中检测的主要挑战是由沿着帧的边界框序列形成的时空管定义的搜索空间的大小。最近,已经证明产生无监督检测提议的方法对于静止图像中的对象检测非常有效。这些方法开启了使用强但计算上昂贵的特征的可能性,因为仅需要评估相对少量的检测假设。在本文中,我们为利用时空检测问题的检测方案做出了两点贡献。首先,我们扩展最近的2D对象提议方法,通过随机超级体素合并过程产生时空提议。我们引入了空间,时间和时空成对超级体素特征,用于指导合并过程。其次,我们提出了一种新的高效超体素方法。我们通过实验评估我们的检测方案,结合我们的新超体素方法以及现有方法。该评估表明,与使用现有的最先进的超体素方法相比,我们的超级体素可以提供更准确的建议。

超级体素方法
我们不是对超级体素方法进行全面调查,而是将重点放在与我们工作最相关的方法上。 Xu和Corso [45]最近的评估比较了五种不同的方法[9,13,14,18,32]将视频分割成超级体素。根据几个通用和独立于应用的标准,他们将GBH [18]和SWA [9]确定为最有效的超级体素方法。 SWA是一种分层分割方法,可以解决每个级别的标准化切割。在最精细的层次上,它定义了体素强度差异的相似性,而在较高层次上,它使用聚合特征,这些特征是在较早层次合并的区域上计算的。 GBH是Felzenszwalb和Huttenlocher [13]基于图的方法的分层扩展。在[47]中引入了GBH的流媒体版本,其执行类似于GBH,但是通过使用视频的重叠时间窗口来优化分割,成本的一小部分。类似于SWA,GBH还使用聚合特征(例如颜色直方图)来基于强度差异执行初始分割时定义相似性。
虽然SWA和GBH直接用于3D时空体素图,但Van den Bergh等人最近的VideoSEEDS方法。 [41]表明,通过以流方式传播在各个帧上计算的2D超像素,可以获得相似质量的超体素。 在我们自己的工作中,我们采用类似的方法,其中我们采用每帧SLIC超像素[1]作为起点,并在空间和时间上合并它们以形成超体素。 从每帧超像素开始的优点在于,用于形成较大超级体素的图形比基于单个体素的图形小得多。 超像素本身也是有效的,因为它们是跨帧独立提取的。
由于对象可以以不同的比例出现,因此将视频单个分割成超级体素通常不能成功地准确地捕获所有对象,并且导致低于或高于分割。 徐等人。 [46]最近提出了一种超级体素层级平坦化方法,该方法通过这样的层次结构选择切片,该层次结构可以最大化各种无监督或监督标准。 以这种方式,分割比例可以在本地适应内容。 我们的工作是相关的,因为我们的目标是使用(分层)超体素分割来查找与对象相对应的区域。 与徐等人不同。 [46]然而,我们并不局限于寻找视频的单个分段,而是允许不同检测假设之间的重叠。
已经开发了几种时空动作检测方法。最初为静止图像中的有效物体检测而开发的想法。袁等人。 [48]提出了一种有效的分支定界搜索方法,用于根据有效的子窗口搜索定位时空长方体中的动作[22]。然而,在时空长方体上搜索是不可取的,因为当感兴趣的对象经历大的运动时,空间定位的准确性将受到损害。 Tran和Yuan [38]提出了一种有效的时空动作检测方法,该方法基于动态规划来搜索连接在时空搜索之前得分的静止图像边界框的管空间。然而,构建网格在计算上是昂贵的,因为如果允许管尺寸随时间变化,则每帧需要基于滑动窗口的基于不同尺度和纵横比的所有考虑的边界框的评分。此外,这种方法的效率依赖于视频长方体或管的分数的加性结构。这可以防止使用涉及非加性元素的最新特征池技术,包括最大池[42],功率和Fisher矢量表示的归一化[28]或二阶汇集[6] 。
最近,一些作者提出了有效的实现[23,40]和近似标准化[29],以有效地使用具有非线性标准化的Fisher矢量表示。一种更通用且适用于任意表示的技术是使用通用的类独立提议[2,12,26,39],这些提议最近出现在2D对象本地化的上下文中。这些方法依赖于低级分割提示,以便为每个图像生成大约数百到数千个对象提议,其覆盖大多数对象。一旦检测问题被减少以评估相对适度数量的对象假设,我们就可以使用更强的表示,否则如果在滑动窗口检测器中使用则该表示会非常昂贵,参见例如最近的最新结果。 [8,17,43]。这里我们只讨论两种最有效的对象提议方法。 Uijlings等。 [39]通过执行超像素的层次聚类来生成提议。分段层次结构中的每个节点产生由合并的超像素的边界框给出的提议。 Manen等人的方法。 [26]类似地聚集超像素,但是以随机方式聚集。在第4节中,我们展示了如何将此技术用于基于超体素分割的时空检测方案。
Van den Bergh等人。 [41]提出了一种基于跟踪窗口的视频对象方法,该方法与超体素边界很好地对齐。跟踪基于跟踪窗口内的超级体素的演变。然而,与[26,39]和我们的工作不同,他们的方法本质上依赖于产生界定对象度量的边界的超体素的尺度。与我们的工作平行,Jain等人。 [20]开发了Uijlings等人的层次聚类方法的扩展。 [39]到视频领域获得对象提案。与我们的工作最显着的区别是他们从“独立运动证据”地图计算他们的初始超级体素。该图估计每帧中每个像素的运动与主要运动不同的可能性。虽然这种方法可以有效地分割运动中的物体w.r.t.在背景中,它没有提供恢复场景中静态对象的机制。此外,估计主要运动在现实世界视频中经常容易出错。
最后,几种最近的方法解决了视频中相关但不同的运动分割问题[25,31,49]。 他们的目标是在视频中产生主要移动物体的像素分割。 与上面讨论的方法不同,它们产生主要对象的单个估计,其被假定为至少部分地在运动中。 [25]和[49]都基于链接来自[12]的静止图像对象提议。 他们使用像素方式的MRF改进基于窗口的解决方案。 Papazoglou和Ferrari [31]提出了一种使用运动边界来估计感兴趣对象轮廓的方法,并使用对象外观模型来细化这些估计。而不是依赖于每帧的对象提议边界框,它们依赖于每帧超像素 分段作为定义能量函数的基本单位。 在我们的实验中,我们将比较YouTube对象数据集中[31]的结果。

时空融合的分层超体素
我们的超体素方法从超像素开始作为基本构建块,并使用分层聚类聚合空间和时间上连接的超像素。 在3.1节中,我们详细介绍了超像素图构造和边缘成本的定义。 然后,在3.2节中,我们提出了层次聚类方法,其中包括一个新的惩罚项,可以防止合并物理上断开的对象。

超像素图的构造
我们使用SLIC [1]将每个视频帧独立地分割成N个超像素。 已经证明SLIC超像素可以准确地遵循遮挡边界[24],并且提取效率很高。 对于每个超像素n,我们计算其在Lab空间中的平均颜色μ(n),使用每个通道使用十个箱的颜色直方图h col(n),以及使用九个方向箱的流量直方图h flow(n)。 我们构造了一个图G =(S,E),其中S是超像素集,E是它们之间的边集。 在5.1节中,我们详细介绍了如何使用一小组训练图像设置图表权重的参数。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
时空动作检测(spatio-temporal action detection)是一项计算机视觉任务,旨在从视频片段中准确地检测和识别出发生的动作。与传统的动作识别任务相比,时空动作检测旨在通过不仅仅检测动作在空间上的出现,还要捕捉动作在时间上的变化。 时空动作检测往往涉及以下几个主要步骤: 1. 帧级特征提取:首先,利用现有的特征提取技术,从每个视频帧中提取稳定而有信息量的特征,以捕捉空间信息。 2. 时间建模:接下来,通过对连续帧之间的变化进行建模,来捕捉动作的时间相关性和动态信息。这可以通过各种技术,如光流,差分图和循环网络等来实现。 3. 动作检测:在获得空间和时间特征后,利用学习算法(如深度神经网络)来进行动作检测。这通常通过将时空特征输入到分类器,然后根据预先训练的模型推断动作类别和位置。 4. 时空定位:最后,定位动作在视频中的准确位置。这可以通过在时间上进行滑窗检测,并使用非极大值抑制来抑制重叠检测结果来实现。 时空动作检测在很多领域具有广泛应用,比如视频监控、智能交通、运动分析和人机交互等。通过准确地检测和识别动作,我们可以实现更精确的行为理解和动作预测,从而为许多实际应用带来便捷和效益。然而,时空动作检测仍然存在一些挑战,如动作遮挡、背景干扰和不同尺度的动作等问题,所以该领域的研究仍在不断发展和进步。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值