经过前几次的努力,基本上确定了最终的眼球追踪模型的方向,所以这一周工作重心开始转向其他模块,包括情绪分析、手势识别等。以及工程的实现。我这周负责的任务主要是手势模块,重点核心的功能是通过手势来实现翻页(包括上下移动,左右翻页等)
因为我们的应用主要以实现交互为主,所以对于手势,只要能够实现简单的一些操作即可,目的是在一些不方便使用鼠标键盘操作的情况下实现简单的阅读交互。因为情绪分析识别和视线追踪都会使用到机器学习模型,所以在手势识别上,我优先考虑通过图像处理的方式来进行判断,实现快速高效的判断。
实现思路:
考虑日常使用的场景,在摄像头范围内,通过手势来翻页,那么在摄像头视频的帧序列中,具有明显运动的特征的应该就是手部(无论是在速度上还是在幅度上),所以通过获取一部分连续的摄像头视频帧序列,分析图像之间的区别来作出判断。
所以这个思路归纳下来就是帧间差分法。
帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,它可以很好地适用于存在多个运动目标和摄像机移动的情况。当监控场景中出现异常物体运动时,帧与帧之间会出现较为明显的差别,两帧相减,得到两帧图像亮度差的绝对值,判断它是否大于阈值来分析视频或图像序列的运动特性,确定图像序列中有无物体运动。图像序列逐帧的差分,相当于对图像序列进行了时域下的高通滤波。
在图像二值化以后,手一开始位置以及移动后的位置,分析最多个帧的序列可以明显看出来轮廓位置整体是向左移动的。