A Dynamic Approach and a New Dataset for Hand-detection in First Person Vision

Abstract

  • 手部检测和分割方法是第一人称视觉中最突出的两个目标。
  • 目前的发展集中在手部分割问题上,隐含地假设手部始终在用户的视野内。
  • 本文提出了一种新的手部检测数据集,该数据集经过精心设计,可以保证正负帧之间的良好平衡,同时还具有照明变化、手部遮挡和真实位置等挑战性条件。
  • 此外,本文还扩展了一种使用动态过滤器提高检测率的最新方法。将改进后的性能作为与数据集一起使用的基线。

Introduction

  • 现在,技术上可以实现一种可穿戴计算机记录用户所看到的内容,并向其提供相关反馈和帮助的想法。正如预期的那样,这项新兴技术越来越吸引了计算机科学家和软件开发人员的兴趣,他们创造了一种方法来处理用头部或胸部摄像机录制的视频。这种视频视角通常被称为第一人称视觉(FPV)或自我中心视觉。
  • 现有文献指出了这种视频视角的几种有前景的应用。其中,基于手的方法是最为探索性的方法,目的是利用有意识或无意识的手运动,对用户进行更高的推理,如活动识别和用户-机器交互。FPV中的一个常见做法是假设手总是由摄像机记录,因此,可以定位和跟踪手来推断更复杂的信息。事实上,视频序列中一种或另一种类型的帧(有/无手)的优势不是相机位置优势的结果,而是用户做饭时进行的活动(例如手)比在街上行走时更频繁。
  • 作者提出了两个截然不同的问题的特征,即手检测和手分割,并将它们结合在一个顺序结构中,以提高整体系统性能。根据[6]的定义,手部检测级别使用全局特征和分类器回答手中存在的手的存在或者是否存在的问题,而手部分割级别定位并概述手中的手部区域。 在逐像素逐像素分析框架下使用低级特征(如颜色)的正帧。
  • 关于数据可用性,有几个FPV数据集可用于研究目的。一般来说,这些数据集的技术特征是相似的,并且仔细记录视频,以确保Schiele在1999年确定的基本要求[26]:i)比例和纹理变化,ii)帧分辨率,iii)运动模糊和iv)手部遮挡。
  • 对于可穿戴设备来说,平衡数据集是一个现实的假设,可能会导致电池寿命的显著提高,以及更高级方法的性能,如基于手的活动识别和用户机器交互。值得一提的是,如第2节所示,现有数据集不能保证这种情况,这使得它们不适合面对手部检测级别的分类问题。
  • 这项工作确实侧重于手部检测,其贡献有三个方面:i)它在手部检测方面具有唯一的手部数据集,这保证了在5个真实位置有手和无手的帧数量平衡,以及照明、相机运动和手部闭塞的变化。1 ii)在[6]之后,在不考虑数据的时间维度的情况下,对数据集进行多手探测器(特征分类文件)评估。iii)使用动态贝叶斯网络(DBN)对最佳手部检测器(HOG-SVM)进行扩展,并对其进行调整以使决策过程平稳。该方法利用视频的时间维度提高了[6]的性能,并通过启发式优化调整了参数。通过直接改变SVM的分类确定性,而不是通用的多维特征数组,考虑了所提出方法的计算复杂性。也就是说,我们在图1所示的估算过程中,在更高层次上执行过滤步骤。
  • 由于FPV记录设备的日益普及,处理相关视频和数据集的方法数量迅速增加。据我们所知,2005年至2014年共发布了16个数据集,每一个数据集都是专门针对特定目标而设计的,即目标识别和跟踪、活动识别、计算机与机器交互、视频摘要、物理场景重建、以及交互检测。
  • 现有的数据集可以分为两大类:手几乎总是存在的数据集和手很少出现的数据集。第一组用于对象识别(mayol05、intel)、活动识别(kitchen、gtea11、gtea12)和用户机器交互(虚拟博物馆)。这些数据集通常记录在固定的位置,如厨房或办公室,而用户执行不同的任务。对于手部检测问题,这些数据集不适用,因为无法在与正样本相同的位置和光照条件下提取一组负样本来训练二进制分类。第二组数据集经常用于活动识别(VINST,UEC,ADL),视频分割(UTE,BEOID),交互检测(迪士尼,JPL,布里斯托尔,EGO-GROUP,EGO-HPE)。在一般数据集中 大并且包含用户在几个真实位置移动的序列。 与视频的长度相比,用手的帧数较少,并且具有手的帧的位置是稀疏的,使得不可能提取具有相似位置的足够大的平衡训练集。 值得强调的是,在同一位置使用和不使用手的框架的重要性。 这将导致分类学员学习与手部存在相关的模式,而不是学习与位置变化相关的模式。
  • 手部检测/分割方法可以分为两类:模型驱动和数据驱动。前者使用计算机化的手模型来重现视频图像[30],而后者利用图像特征来推断手的位置、形状和位置。

State Of Art

  • 用于手部检测的Unige-Hands数据集是一组FPV视频,仔细记录以确保有手和无手帧之间的良好平衡,并提供诸如照明变化、相机运动和手部闭塞等具有挑战性的特征。UNIGE-HANDS数据集,视频和实际情况分发给公众使用。 该数据集包含在5个不受控制的位置记录的视频(1.Office,2.Coffee Bar,3.Kitchen,4.Bench,5.Street)。 数据集中的每个位置又分为训练和测试视频。
  • 为了记录数据集,我们使用了GoPro hero3 +头戴式摄像头,分辨率为1280×720像素和50 fps。 整个数据集,包括培训和测试视频,包含一小时和三十八分钟的视频。 总的来说,训练视频分别有37.21和37.63分钟的阳性和阴性序列。 每个位置的训练视频由2个正片和2个负片视频组成,每个视频大约3.34分钟(10020帧)。 关于测试视频,它们包括12.6分钟的正片段和12.7分钟的负片段。 每个位置的测试视频持续大约4分钟(12000帧),以大约一分钟的间隔从正变为负。
  • 按照[6]中描述的过程,对新数据集进行分类和视频功能的多种组合评估。分类为:支持向量机(SVM)、决策树(DT)和随机森林(RF)。
  • HOG-SVM是所有评估策略中表现最佳的组合。LAB-RF的性能,尽管在测试案例中低于HOG-SVM,但它可以提高手检测器的计算效率。

Hand-detection DBN

  • 在我们的例子中,我们设计了经典GA,其中每个基因组是要优化的参数的实例,并且每一代包含100个基因组。 该算法以100个随机基因组的初始群体开始,以选择最佳的4个,命名为父母。 然后,后续生成由两部分组成。 第一个64个基因组是交叉:父母的组合,其余36个基因组是突变:父母的随机修改。 在突变阶段,随机选择父母,并且每个元素的概率为0.5。 一旦算法达到目标函数的可接受的衰减速率,所有代中的4个最佳基因组用作NM中的初始点。 选择最佳NM结果作为最佳组合。

Result

  • 本节给出的结果是双重的。首先,我们为提议的过滤器引入两个不同的优化案例。第二,我们展示了DBN方法如何显著提高hog-svm检测器的性能。
  • 因此,我们从物理学中借用了一个恒力模型,我们认为这是一个很好的起点。这相当于假设存在某种恒定(振荡)力,使特征远离决策超曲面,或使它们以恒定加速度a穿过决策超曲面。
  • 更详细地说,(6)中的第一个方程模拟了精确的恒定加速度,其中a是控制输入的效果,它精确地产生与时间相关的噪声项。 另一方面,采用利用二阶导数增强的状态将允许a的小变化,在噪声项wk中占据。 在我们的优化框架中,这相当于对Q的每个元素进行参数化。在这种情况下,基因组由[Q1,1,Q1,2,Q2,1,Q2,2,r,th]的实例给出,并且 每个交叉的元素是从当前父母之一中随机选择的。 在第二种优化情况下,我们假设加速度是恒定的,并且矩阵Q被分解,如(7)中那样隔离采样率。

Conclusions and Future Research

  • 本文介绍了用于手部检测的单手数据集,并扩展了[6]中提出的结合动态视角的最新方法。数据集记录在5个不同的位置,并保证现实的条件,如照明的变化、遮挡和快速的摄像机移动。此外,数据集分为培训和测试视频,以确保对未来方法的公平比较。
  • 为了验证数据集与先前研究的一致性,我们使用交叉验证(如[6,8]中建议的)和数据集的测试视频评估最先进的方法。结果得出三个结论:i)数据集具有足够的挑战性,测试视频是避免交叉验证结果偏差的好方法;ii)帧之间的微小变化对现有帧的逐帧手动检测器的性能有很大影响;iii)研究结果表明,SVM-HOG是手部检测的最佳组合。
  • 逐帧方法的HOG-SVM使用动态贝叶斯网络进行扩展,其中动态部分由具有恒定加速度模型的卡尔曼滤波器承载。 使用遗传算法和Nelder-Mead单纯形算法来调整KF的参数以及决策阈值。 在每个数据集位置评估DBN,其性能表示为与UNIGE-HANDS数据集一起使用的基线。 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值