A Light CNN based Method for Hand Detection and Orientation Estimation

Abstract

  • 最近,使用CNN模型的物体检测方法以高计算费用显着提高了手检测的准确性。
  • 在本文中,我们提出了一个轻型CNN网络,它使用改进的MobileNet作为SSD框架的特征提取器,以实现对手部位置和方向的稳健和快速检测。
  • 网络生成一组不同分辨率的特征图,以检测不同尺寸的手。
  • 为了提高健壮性,我们还采用了一种自顶向下的功能融合体系结构,该体系结构集成了跨功能级别的上下文信息。
  • 为了准确估计CNN的手部方向,我们设法估计两个正交向量沿水平和垂直轴的投影,然后恢复完全包围手部的边界框的大小和方向。
  • 通过对具有挑战性的牛津手工数据集的评估,我们的方法在Nvidia Titan X上以139 fps的速度达到83.2%的平均精度(ap),在准确性和效率上均优于以前的方法。

Introduction

  • 如果受到杂乱背景、极端光线条件、运动模糊和各种手形的影响,从单个RGB图像中精确检测手仍然很困难。
  • 早期的方法试图通过使用颜色或手工设计的特性来处理这些问题,但效果并不很好。
  • 近年来,基于CNN的方法在通用目标检测方面取得了很好的效果,因此这些方法成为潜在的解决方案,通过克服上述问题,可以成功地进行手部检测。
  • 在本文中,我们提出了一种基于CNN的有效检测手的方法。我们使用mobilenet作为特征抽取器,与单镜头多盒探测器(ssd)框架一起使用,以实现一个强大而快速的手部检测。
  • 对mobilenet的结构进行了修改,提供了一个深度为38×38的特征图,有利于小手的检测。然后构建六幅不同尺度的特征图,以便于对不同尺寸的手进行检测。
  • 考虑到手通常是小尺寸的,在图像中分辨率低或严重闭塞,像人体组件这样的上下文信息可以帮助估计手在这些情况下的位置。因此,采用了一种自顶向下的特征融合体系结构,将上下文信息合并到不同级别的特征映射中。此外,为了减轻涉及上下文信息时的计算负担,我们采用了反方向卷积和逐点卷积(1×1卷积)。
  • 除了手的位置外,我们还检测手的方向。估计的方向可以提供更好的理解形状或姿势的手,而不仅仅是定位他们。因此,本文提出了一种基于矢量的手部方位精确估计方法。
  • 具体来说,我们引入两个垂直向量来表示与手精确对齐的边界框。两个矢量分别通过预测它们在水平和垂直轴上的投影来计算。通过估计向量,可以得到手的方向,并方便地生成旋转的手边界框。
  • 由于我们的目标是在各种具有挑战性的场景中检测手,因此我们的方法在牛津手数据集[5]上进行了评估,牛津手数据集是一个著名的手检测硬数据集。据我们所知,Le等人对该数据集的最佳结果是75.1%的平均精度(ap)。实验结果表明,我们的方法在Nvidia Titan X上以139 fps的速度达到83.2%的AP,与Le等人使用的GPU相同。该方法也给出了牛津手数据集中手方向的合理估计。我们的方法在手部检测的准确性和效率方面都优于以前的工作。

Related Work

  • 许多研究人员试图解决手部检测的困难。这些方法包括基于皮肤分割技术的方法、使用手工特征的目标探测器和基于CNN的方法。
  • Argyros等人将输入图像转换为YUV颜色空间,然后使用预先训练的贝叶斯分类器分割肤色区域。然而,该方法对皮肤颜色变化和背景复杂度不具有鲁棒性。
  • Stergiopoulou等人通过额外的手部运动和形态权重信息,提高了皮肤分割的鲁棒性。然而,它对静态背景的假设在实际应用中并不实际。
  • Gabor过滤器、Hog、Sift和其他手工设计的功能结合在一起,以分割手部的皮肤区域。然而,该方法耗时,在极端光照条件下很容易失效。
  • Pisharady等人[11]提出了一种结合形状和纹理特征的视觉注意力贝叶斯模型。他们对10个手部姿势的检测达到了合理的精度,但其方法不能推广到任意形状的手部检测。
  • 陈等人提出了一种基于Viola和Jones框架的手势检测算法。 然而,当面对杂乱的背景时,它的实施是脆弱的。
  • Mittal等人[5]针对不受约束的场景,使用可变形零件模型(DPM)构建了一个两级手持探测器。第一阶段采用三个互补探测器来产生手提议。 然后将提案的分数组合起来,在第二阶段进行最终预测。 这种计算上昂贵的方法还通过在检测之前将图像旋转到36个不同方向来实现方位估计。 该方法在具有挑战性的牛津手数据集上获得了48.2%的平均精度(AP),这仍然远离实际应用。
  • Huang等人使用更快的R-CNN框架构建了一个以自我为中心的交互系统,以感知和识别手的姿势。对一个困难数据集的实验表明,该方法比最先进的跟踪和检测算法获得了更好的精度。
  • 邓等提出了一个两阶段框架,共同评估手的方向和位置。他们使用更快的R-CNN的RPN生成区域建议,然后根据ROI池特性估计手的方向。他们声称将相应的特征与垂直方向对齐有助于提高手部检测的准确性。他们的方法比Mittal等人的方法更好。
  • 为了检测尺寸较小、分辨率较低的手,Le等人建议结合本地和全球特点。他们通过聚合多尺度特征图扩展了更快的R-CNN和R-FCN的框架。据我们所知,他们的方法为牛津手工数据集提供了最佳的检测精度。然而,所有这些基于CNN的手部检测方法都获得了很好的准确率,而代价是使用相对较重的检测模型,而没有探索更有效的方法。
  • 基于皮肤分割的手部检测不足以处理不同的光照条件或复杂的背景。基于人工特征的目标检测方法在一定程度上克服了上述问题。然而,他们无法应付手形的巨大变化。使用CNN模型的目标检测方法显著提高了检测精度,但计算成本较高。
  • 作为一级检测框架,固态硬盘显示出与更快的R-CNN(两级探测器)相当的精度,处理效率更高。然而,这样一个快速的SSD模型在计算上仍然太重,不适合于资源有限的设备,如移动电话。黄等提出的实验。通过使用不同的特性提取器和参数,比较了更快的RCNN、R-FCN和SSD。在他们的实验中,使用mobilenet的ssd模型达到了最快的处理速度,而不会损失对原始ssd的一般对象的检测精度。我们相信,ssd和MobileNet的结合也能达到令人满意的手部检测精度。

Our Approach

  • 该网络接受300×300的图像作为输入。利用修改后的mobilenet和自顶向下的功能融合架构,网络生成六个不同分辨率的功能图。在SSD框架设计的基础上,将卷积滤波器应用到每个特征映射中,实现了手部检测和方位估计。

Conclusion

  • 在本文中,我们提出了一个CNN网络来有效地确定手的位置和方向。基于SSD框架和修改后的mobilenet,我们设法生成六张不同分辨率的特征图,以检测不同尺寸的手。
  • 为了进一步介绍有利于手动检测的上下文信息,我们在检测器中采用了自顶向下的特征融合体系结构。更准确和有效地识别具有挑战性的牛津手工数据集,证明了我们的方法优于以往的工作。
  • 虽然我们的探测器显示出更高的探测精度,但有时会被脚、脸或手状形状或颜色的物体愚弄。我们相信对手部区域增加更明确的限制将减少这种假阳性检测。在未来,我们将探索更多的人体部位作为检测目标,这将进一步有利于手部检测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值