目前主流的手势交互方式用的是视觉方法,如下面的基于HoloLens AR眼镜的第一视角的使用画面示例:
根据视频的可视化图像可以看到,真实的用户手与交互界面对应的手的建模其实不能很好的完全契合,出现这个问题是因为涉及到不同坐标系的统一,主要包括:A)真实物理坐标系(用户眼睛看到自己手所对应的坐标系)B)算法识别用户手势的相机坐标系,C)UI场景坐标系。由于设备出厂前的标定系统的公差等等原因造成了这样的问题,带来了虚实交互中不完全匹配的体验。
根据主流AR设备去看,要实现这个UI交互系统,要涉及部分主要包括:
1、手势算法软件及相机硬件。
2、UI渲染(或是更加视觉效果好的三维UI渲染)。
3、物理坐标系,手势算法相机坐标系、UI界面的坐标系三个坐标系的统一。
光是上面三个关键部分让整个系统构建实现复杂,且高质量的三维渲染对于系统硬件性能也有一定的要求。这样对于可穿戴AR设备的降成本和普及其实是一个障碍。
以下我提出一种可能,也正在尝试着去做实验,如下在没有任何视觉UI引导的前提下,我通过语音提示了解到我做了哪些有意义的操作(即符合用户使用意图的操作)。(因为这里demo涉及语音效果所以只能看对应的视频网站链接),demo视频连接如下:
开源项目 - 交互中用中文语音提示的识别物体的demo原型 AR 手势识别 手势交互 handpose
开源项目 - 交互中用语音提示操作的尝试 AR 手势交互 手势识别 handpos
开源项目 - 交互中用提示音进行提示尝试 AR 手势识别 手势交互 handpose -
相关的开源项目地址:https://codechina.csdn.net/EricLee/handpose_x
完整的demo代码预计3月会发布,目前正在代码规整中。
如果通过语音提示的方式来达到一定的UI交互效果,那么可以省略UI视觉UI需要进行的:A)物理坐标系B)手势算法相机坐标系C)UI渲染坐标系的三种统一标定。且可以让用户不会出现真实的用户手与交互界面对应的手的建模不完全契合的问题,但是这样也会有弊端就是他不能与之前视觉UI交互那样呈现细致的三维交互如按钢琴的按键。但是的确可以将整个交互系统的复杂度降低,可用于成本低(不需要复杂三维渲染要求)的AR设备或是其它智能交互设备。这是我的一次尝试,希望对大家有所启发、帮助。当然我觉得最好的UI交互包括视觉和语音的结合,甚至是其它的要素,这是一个循序渐进的探索尝试过程。