A Two-stage Detector for Hand Detection in Ego-centric Videos

Abstract

  • 我们提出了一种两级探测器,它不仅可以检测和定位手,还可以高效地在手边界框中提供详细的信息。
  • 在第一阶段,从像素级手概率图生成手边界框提议。接下来,每个手提议由多任务卷积神经网络评估,以滤除误报并获得精细的形状和地标信息。
  • 通过实验,我们证明了我们的方法能够有效和稳健地检测手的形状和地标信息,我们的系统也可以灵活地与其他检测方法相结合来处理新的场景。 进一步的实验表明,我们的多任务CNN还可以扩展到手势分类,性能大幅提升。

Introduction

  • 与通常在估计人体全身姿势时检测到手的第三人称视频相比,以自我为中心的视频中的手部检测具有其自身的特征。首先,手部大小和视点有很强的先验,因此没有必要在所有比例和位置上进行详尽的搜索来检测手部。其次,由于手势和交互通常由手姿势定义,因此可以明确地使用这些姿势以便于检测。然而,通用对象检测方法在实践和它们的公式中都不能捕获这些属性,因为它们没有明确地处理由于手部关节和视点改变而导致的大的外观变化。
  • 为了克服通用物体检测方法的局限性,我们提出了一种两级检测器,它不仅可以检测和定位手,还可以在手的边界框中提供细节信息。在第一阶段,从像素级手概率图生成手边界框提议,其在自我中心场景中组合手大小和位置。接下来,每个手提议由多任务卷积神经网络(CNN)评估,以滤除误报。多任务CNN模型明确地将形状和地标信息作为其输出,因此可以将其解释为用于手部识别的特殊感知模型。
  • 我们将像素级手部检测推进到基于通用边界框的手部检测,以便于在框内进行后续手部姿势分析。
  • 我们通过多任务学习产生的结果扩充输出边界框,这些结果更直观,信息量更大。
  • 我们的学习模型可以灵活地与其他检测方法结合使用来处理新场景。

Related Work

  • 在21世纪初期,有许多研究工作使用基于区域的方法来检测手。 在人脸检测成功之后,通常会检测到边界框并将其用作人手的表示。 可以从批量训练样本中提取特征来训练ViolaJones,如增强检测器或HOG-SVM检测器。 边缘信息也用于形成集合表示,以匹配来自3D手模型的合成2D投影。 
  • 为了减少用于手检测的时间,还有另一种尝试以像素级检测手的工作。早期工作使用肤色作为检测手的提示。 在深度图像序列中,可以使用具有像素度深度比较的简单决策森林来提取手区域。当谈到以自我为中心的视频时,在随机森林框架下研究了各种颜色特征,结果表明,只需考虑一个小的补丁区域就可以对手像素进行分类。
  • 当谈到两阶段检测识别框架时,它最近在大规模物体检测领域变得流行。通过启发式提出边界框,与蛮力滑动窗口方法相比,这种方法不仅可以节省时间,而且还可以实现能够带来更高级别信息的数据驱动的判别分类模型。
  • 我们的端到端手部检测系统将高效的像素级方法与高度辨别力的手部模型相结合。它非常适合以自我为中心的视频中的手部分析。

System Overview

  • 我们的系统包括两个阶段:假设生成和边界框识别。在第一阶段,使用结构化随机森林(SRF)[29]从输入图像生成像素级手像素概率图,然后基于该图生成框提议。在第二阶段,裁剪的图像块用作多任务CNN的输入,其将产生检测分数以及形状掩模和手腕和手掌的位置。最后,这些提议在基于盒的非最大抑制(NMS)之后排序以获得最终检测结果。
  • 给定图像I,我们在第一步中的目标是提出一组以适当大小覆盖手的方框{bi | bi =(xi,yi,wi,hi)} 。 理想情况下,这些盒子应紧紧包住手。 在实践中,我们的目标是提出具有高精度和手像素召回的盒子。
  • 以前的像素级手检测方法[29,12]使我们能够在随机森林框架下有效地获得手像素的概率图。我们观察到手概率图的局部最大值总是位于手中心周围。 即使我们将模型应用于新场景,即VIVA和BMVC数据集,手概率图的局部最大值仍然位于手中心周围。 这表明手中心可能位于手概率图的局部最大值附近。
  • 我们采用CNN来解决上述能量最小化问题。 多任务CNN的结构如图4所示。 它包含两个卷积层,每个卷后面都有一个Recti fi ed线性单元(ReLU)层和一个3×3 Maxpooling层。 接下来,这些功能将连接到完全连接的层。 最后,此特征向量由主任务及其辅助任务共享。 我们介绍三个辅助任务如下:
  • 我们的模型通过随机梯度算法进行训练,批量处理大小为128个示例,增量为0.9,权重衰减为0.0005。 学习率初始化为0.01并在训练期间进行调整。 更具体地说,我们监控整体损失函数。 如果连续5个时期的损失没有减少,则学习率下降50%。

Conclusion

  • 在本文中,我们提出了一个框架来检测以自我为中心的视频。 我们使用两阶段框架,与基于滑动窗口的方法相比,在测试阶段节省了时间,并且从多任务CNN大大受益,不仅可以检测手,还可以在该边界框内提供更多信息。 这对我们的观察和进一步分析都很有用。
  • 我们的方法的一个限制是它需要大量的训练数据来训练多任务CNN以改善其性能。 我们将此作为我们未来的工作,通过半监督学习来调整模型,以便更多地利用我们可用的不同标签级别的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值