Abstract
- 随着增强现实技术(AR)的发展趋势和智能头戴式设备的普及,发展自然的人机交互尤其是基于手势的人机交互具有重要意义。
- 本文提出了一种基于点-手势的视觉交互方法及其应用。
- 首先,建立了一个以自我为中心的视觉指向手势数据集。我们讨论了数据集的收集细节以及对该数据集的综合分析,包括背景和前景颜色分布、手的发生可能性、手和手指的比例和指向角分布以及手工标记错误分析。分析表明,该数据集涵盖了各种环境和动态手形下的大量数据样本。
- 此外,我们还提出了一个基于快速CNN的手部检测和双目标定位检测框架。与目前最先进的跟踪检测算法相比,该算法在手部和边缘检测方面都表现最佳。
- 通过大规模数据集,我们在640px×480px的视频帧中实现了大约12.22像素的fingertip检测错误。
- 最后,利用指尖检测结果,我们设计并实现了一个以自我为中心的视觉输入系统,即自我空气书写。通过将指尖视为笔,佩戴可穿戴玻璃的用户可以在空中书写字符,并使用简单的手势与系统进行交互。
Introduction
- 考虑到可穿戴设备的室内和室外情况,深度照相机不适用,只适用于RGB颜色序列。因此,关键的挑战是在各种情况下实时准确地检测和跟踪手指尖的位置。这是一个非常困难的任务,因为许多因素,如背景复杂度,照明变化,手形变形,指尖运动模糊等。
- 目标跟踪方法可用于手部跟踪,但由于太小,仍然面临不同的目标跟踪。
- 深度学习框架在目标检测领域提供了有希望的结果,包括手部检测,但由于冗余方案,该框