FingerInput: Capturing Expressive Single-Hand Thumb-to-Finger Microgestures

Abstract

  • 单手拇指到手指的微手势显示出很好的表现力,快速和直接的互动前景。然而,开创性的手势识别系统都集中在特定的手势子集上。我们仍然缺乏能够更全面地检测一系列可能的手势的系统。在本文中,我们提出了一个统一的拇指到手指微手势设计空间。基于该设计空间,我们提出了一种基于深度传感和卷积神经网络的拇指对手指手势识别系统。它是第一个能够准确检测传感器和传感器之间的接触点的系统。因此,它可以检测到比现有备选方案更广泛的一组手势,同时还提供有关接触点的高分辨率信息。该系统显示,8个要求严格的拇指到手指手势类的实时检测平均准确率为91%。我们通过一组示例应用程序演示了这种技术的潜力。

Introduction

  • 人们对拇指到手指的手势越来越感兴趣,这种手势利用了手指固有的固定运动技能,允许用户表达控制数字系统。通过用拇指触摸一个或多个手指,用户可以直接在皮肤上执行触摸输入。这将是一种非常直接、快速和谨慎的输入类型,因为它支持单手和无眼的交互。然而,感觉到这种拇指对手指的手势是困难的,因为这些手势涉及到小的动作,并且在身体不适合乐器的位置进行。
  • 开创性的研究已经展示了各种手势,并提出了各种感知方法。考虑到该领域的近况,它的特点是以点探索为特征,专注于特定的、相当小的拇指到手指动作,这并不奇怪。因此,这些识别系统通常是为了展示新的交互作用而开发的,因此仅限于特定的实例,如点击固定段或沿着固定段滑动。这种受限的手势集虽然适用于此目的,但限制了现实应用程序中可能的映射范围。到目前为止,还不清楚可能的手势的概念空间是否已经被完全覆盖,常见的设计维度是什么,从技术角度来看最重要的是如何将各种手势集成到一个系统中。我们通过探索如何更充分地支持拇指到手指的手势,为这一新兴的研究领域做出了贡献。
  • 在这项工作中,我们重点支持表达性的、多维的拇指到手指的交互。为了向拇指到手指交互的手势识别系统的设计提供信息,我们首先对先前的工作进行分类,并使用开放编码方法得出一个统一的设计空间,在这个设计空间中,我们识别拇指到手指微手势的手势原语。由此产生的设计空间比以前的作品提供了一个更广泛的微手势列表:原语涵盖了现有的手势,这些手势来自于手绘的微手势文献,同时也展示了新手势的机会。我们使用设计空间来获得支持更广泛手势集的识别系统的技术要求。
  • 我们通过为拇指到手指输入提供一个新的手势识别系统来满足这些要求。它是第一个可以捕获设计空间所有基本元素的系统,因此显著扩展了交互系统中可以检测到的一组手势,增加了输入的表现力。该系统能够识别过滤器和过滤器段,跟踪其三维姿态,并检测过滤器之间的线性和旋转接触,所有这些都具有高精度和实时性。我们的系统是基于视觉的,使用安装在用户头部或肩部的身体磨损深度传感器。因此,它不需要任何仪器的手,而不会受到不良的照明影响,因为只有深度信息被使用。我们提出了三个初步研究,以验证算法的功能。第四次与用户进行技术评估的结果显示,对于8个手势类的丰富多样性,拇指到手指手势识别的准确率高达91%。此外,我们还通过两个示例应用来演示实际的可行性。它们显示了通过我们的方法实现的表达性交互的潜力。

Technical related work

  • 已经使用不同的传感技术来检测身体上的触摸输入,包括声学传感、惯性和磁传感、光反射传感、雷达或电容传感。然而,这些方法有一些局限性:电容式方法的分辨率相对较低,需要对手进行仪器测量。磁法具有高分辨率,但不能提供精确的时间接触检测。所有的方法都能检测到触摸,但对其他触摸者来说,除了触摸动作中涉及的触摸者以外,其他触摸者的感应不灵敏。
  • 另一种广泛使用的方法是使用车载摄像机。可能的摄像机位置包括头部、肩部、胸部和手腕。OmniTouch使用一个深度摄像头和一个安装在肩膀上的投影仪将手掌内部变成触摸表面。Sridhar等人使用安装在手腕上的深度照相机,在手背上启用3D输入。Pinchwatch通过在胸部安装一个深度摄像头来实现微交互,该摄像头可以跟踪佩戴显示器的手。这些方法不需要使用手的仪器,通常在基于手的形状的较大的触摸或自由的手势中都能很好地工作。然而,从一个遥远的相机中准确地检测出接受者之间的接触是一个困难的问题。
  • 通过在环上安装鱼眼摄像头(用于根据手的形状检测不同的触摸手势),可以解决更精细的手势问题[3]。为了检测触摸,一些方法使用基于图像的技术,例如flood filling[11,33]。虽然flood filling适用于检测受限触摸区域(如fleat surface[11]或手背[33])的触摸,但它不适用于更广泛和更复杂的表面(如不同的固定段)上更广泛的触摸交互。即使几何图形已被用于手跟踪,我们也不知道之前使用这种方法检测接触点的工作。
  • 另一项研究则是研究如何捕捉详细的手部姿势。为了提供一个灵活和轻便的设置,最近的手跟踪算法倾向于使用一个单一的消费者深度传感器。它们可以分为三类:歧视性的、生成性的和混合性的。识别方法基于数据驱动的机器学习技术。近年来,卷积神经网络(CNN)已成功地应用于手位估计。生成方法使用生成手模型比较当前姿势估计和观察。混合方法将识别和生成方法结合起来,实现了鲁棒和精确的手姿态估计和手跟踪。虽然之前的大部分工作都集中在固定的同心深度照相机上——这在移动场景中并不实际——但只有少数人探索了安装在机身上的照相机的同心度设置。尽管所有的手跟踪方法都可以估计所有传感器和某个运行时间的偏转角度,但还没有提出精确的连续接触点估计方法。
  • 除了先前的工作外,我们的系统还能够检测到一对一的相互作用,包括沿着接触式挡片的连续旋转角度和相对位置以及接触式挡片的准确检测。此外,它还提供了所有手指的弯曲角度的连续估计,以及3D中精确的相对手指位置。如下一节所述,这对于精确检测拇指到手指的微手势非常有效。

Design space of thumb-to-finger gestures

  • 为了对人体微手势的设计认知系统进行信息分析,我们从以往工作中提出的不同手势中提取了人体微手势发音的共同特征。采用开放编码的方法,我们对原始数据进行了识别,并将其整合为一个四维的设计空间。这四个维度一起定义了一个拇指到手指的手势:a)哪个手指接触,b)另一个手指上的哪个位置接触,c)执行什么触摸动作,d)歌手是如何被执行的。尺寸及其可能的值如图2所示。
  • 触摸启动器:微手势的第一个定义因素是触发触摸动作的手指,即拇指或其他手指之一。
  • 大拇指到手指:之前的大部分工作都集中在由拇指启动的手势上,而拇指正触动另一个手指。调查这类经验输入的工作包括[5、43、42、57、50、2、14、51]。这个空间被很好地覆盖,包括系统的实证研究,研究了由拇指启动的触摸互动的舒适区域[14]。
  • 手指到拇指:很少有人研究手指接触时的反向作用。我们称之为“拇指输入法”。这种形式的输入被隐式地用于扩展固定滑动手势的输入区域[20]或在保持对象的同时启用滑动手势[53]。到目前为止,这种形式的输入被限制为线性滑动,而指针则在拇指上。有机会扩展到更广泛的手势,包括敲击、旋转滑动和使用其他手指。
  • 我们明确排除了第三类,其中包括除拇指以外的任何两个手指之间的触摸接触,因为它超出了拇指和手指交互的范围。这种接触尤其难以正确检测,因为接触频繁,涉及的区域不仅是点,而且是整个表面。
  • 触摸位置:接触部位由接触部位(近端、中端或远端)和接触部位旋转侧(桡侧、尺侧、背侧或掌侧)确定。敲击手势只包含一个触摸位置,而连续手势包含多个连续位置。每个过滤器可分为两段(拇指)或三段(其他过滤器)。由于关节和皱纹产生的触觉和视觉提示,每个部分都被清晰地划分出来,这使得它们成为触摸目标的自然选择。
  • 指侧:触发输入在手指上的位置也由手指纵轴周围的旋转角度决定。 绝大多数工作都集中在仅在手指的一侧进行的输入:径向侧[54,43,48](即靠近拇指的一侧)或掌侧(即掌侧)[14] ,30,46]。 只有极少数研究调查过其他方面的意见。 值得注意的例外包括调查手指两侧(径向,手掌)触摸输入的可爱性的工作[42]。 其他工作应用于一个部分的两侧[15],并开创了围绕手指段[41,24],手指钉[1]或手指皱纹[50]的滑动输入。 总体而言,涉及手指不同旋转侧的手势仍未得到充分发掘,并为互动提供了新的机会。
  • 手势动作:手势动作确定用户正在执行的触摸输入形式:轻敲、连续的纵向或旋转滑动运动,或用触摸启动程序绘制的特定形状。
  • 轻敲:触摸发起者在一个离散的位置触摸一个发起者。探索的接触位置包括过滤器的不同部分和侧面[14、54、42、5、41、48、15、10]以及过滤器[1]。
  • 沿着手指滑动:触摸启动器沿着被触摸手指的纵轴滑动。幻灯片可以沿整个文件夹(57、3、51、55、53、20、10)或文件夹的一部分(50、5、41、1、30)执行。这组动作通常用于操作连续值[51、20、3],但也用于离散手势[50、41、30]。
  • 在手指周围滑动:触摸发起器垂直于触摸手指的横轴滑动[5,1,24,41,50]。 该动作也可以在多个手指[53,2,57,10]上执行。
  • 在过滤器上绘制形状:启动器用于在一个或多个过滤器上绘制形状。一旦形状完全绘制并释放触摸触点,动作就完成。研究了不同的形状,包括圆圈[20]、字符[14]和数字[57]。拉拔动作可以在一个挡片[30、14]的单个挡片上执行,也可以在多个挡片[2]上执行。
  • 手指弯曲:不同手指的弯曲可以被视为动作的一部分。此属性为在过滤器上执行的触摸笔势添加了额外的维度。每个过滤器都可以打开、折叠或移动。我们使用与Krupka等人类似的开放和折叠术语。[18]当鱼尖位于掌心前方某个区域时,谁将鱼刺或拇指折起来。手指弯曲可以是一个离散属性。当一个或多个过滤器在一个手势过程中从打开状态移动到折叠状态或折叠到打开状态时,它也可以是一个连续的功能。我们只知道之前的一项研究,其中包括触摸式记录器执行不同动作的灵活性[54]。将拇指到手指的触摸与自由手势的表达能力相结合[48]为新手势开辟了一个有前途的方向。

Gesture recognition system

  • 我们现在描述我们基于深度摄像头的手势识别系统,用于支持多功能和富有表现力的拇指到手指的交互。 我们的方法可以实时工作,只需一个安装在身体上的深度传感器,并且能够高精度地重建精细的拇指到手指的相互作用,而无需任何手部仪器。 我们的方法结合了全关节手姿势的实时重建(基于完全卷积神经网络,运动骨架和高斯混合模型)和实时检测拇指到手指的触摸接触,以准确地对输入手势进行分类。
  • 为了捕捉输入手势,用户在头部或肩部安装了一个深度照相机,如图3所示。这种布置遵循先前工作的策略,并确保与AR/VR设备的兼容性。例如,未来的头戴式显示器可能包括一个前向深度摄像头。我们使用IntelRealSense SR300相机1,传感范围为20 cm到120 cm,以捕获深度图像。

Discussion and limitations

  • 选定手势集:显示的手势集是设计空间中存在可能性的选定子集。这些手势的选择是为了突出跟踪器的灵活性,采用了不同的手势设置,但没有任何详尽的方法。考虑到跟踪器能够准确识别手的姿势和接触点,其他的微手势也很容易得到支持;其中一个值得注意的例子是考虑手的位置和方向,这是跟踪过程的一部分。
  • 闭塞:我们的评估结果表明,手指输入实现了低误报的拇指到手指手势分类,能够检测到手指的位置并准确分类。然而,由于我们的技术是基于光学方法,因此它受到视线要求的限制:交叉手指、过度弯曲手指或旋转的手造成的一些闭塞可能是手势分类的问题。因此,我们当前的设置假设用户将手以放松的姿势放在胸部前面。
  • 手模型:系统的当前版本要求手动为每个用户指示一次手的测量值。未来的实现将包括一个初始化步骤。
  • 错误分类:我们注意到,当用户在敲击时略微移动手指时,可以将敲击手势错误地分类为旋转滑动。 虽然这证明了旋转滑动的高空间分辨率,其甚至检测到最小的移动,但是它可能导致不期望的命令。 一个简单的解决方案包括增加最小滑动运动的阈值。 旋转滑块的空间分辨率与手指攻丝的稳健检测之间的权衡是一个重要的问题,应该在未来的工作中进一步研究。 另一种设计解决方案包括空间复用:从我们系统支持的许多不同的手指位置绘制,设计师可以保留一些片段或手指侧面用于敲击手势,而其他一些用于滑动输入。
  • 移动性:我们目前的原型使用台式电脑。通过将深度照相机连接到一个穿着身体的微控制器(如覆盆子PI)上,并将深度数据传输到服务器上进行手势分类,可以扩大移动范围。

Conclusion

  • 我们为拇指到手指手势提供了一个统一的交互设计空间,并为手势识别系统提出了衍生需求。根据这些发现,我们开发了“手指输入”系统,这是一个使用深度传感器的多功能拇指触摸手势系统。我们的系统涵盖了设计空间的各个维度,并识别出离散和连续的拇指到手指到手指的组合结构。我们的结果表明,有可能实现一个手势识别系统,该系统大大扩展了单个界面中支持的手势类型。从概念上讲,我们的发现不仅使我们能够对现有的拇指到手指的手势进行分类,而且帮助我们识别出各种新颖和扩展手势的机会。它们共同表明,拇指对手指的手势丰富多样,并为直接和单手互动提供了强有力的支持。

 

"divide and grow: capturing huge diversity in crowd images with incrementally" 是一个标题,该标题是基于一种方法或者技术,用于在人群图像中捕捉巨大的多样性。该方法通过逐步分割和增长的方式来实现。 在传统的人群图像处理中,通常会面临到一个挑战,即人群中的个体数量巨大且多样性丰富。这使得对整个人群图像进行全局处理变得困难。 "divide and grow"方法通过将人群图像分割成更小的区域,并在每个区域中逐步增加分析的粒度来解决这个问题。 首先,该方法会将人群图像划分成多个重叠的子区域。然后,对每个子区域进行单独的分析,以捕捉到区域内的个体。这种分割使得处理的任务更加可管理,同时也可以提高对于人群中不同个体的检测能力。接下来,"divide and grow"方法会逐步增加分析的粒度,即进一步细分每个子区域,以更准确地捕捉到更多的个体。 通过这种逐步分割和增长的方式,"divide and grow"方法可以较好地捕捉到人群图像中的巨大多样性。这种方法可以帮助在人群中准确地检测和识别各种不同类型的个体,例如不同年龄、性别、服装等。 总之,"divide and grow: capturing huge diversity in crowd images with incrementally"是一种用于处理人群图像中巨大多样性的方法。通过逐步分割和增长的方式,该方法可以有效地捕捉到人群中各种不同类型的个体。这种方法可以在人群图像处理和识别中具有广泛的应用潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值