目录
About gesture recognition(estimation),hand pose recognition,action recognition.
一. 2D vs 3D
2D:通过RGB图像进行关节点估计(Pose Estimation)获得。六种人体姿态估计的深度学习模型和代码总结
3D:通过深度摄像机直接获得rgbd图像。例如微软Kinect3D骨骼跟踪系统通过其提供的SDK获得3D深度图像和骨骼关键点的三维坐标等数据,根据人体三维坐标的相对位置关系即可对人体的动作和形态进行判断和识别。第三篇 KinectV2骨骼获取原理和获取方法及源代码
2D人体姿态识别在dataset和model方面都比3D成熟,2Dmodel也有很多户外,自然界的dataset,但是3D的dataset几乎都是indoor的。因为3D标注、识别的复杂,所以需要大量的传感器,摄像头去采集数据。
深度相机类别
1. 双目相机:ZED,小觅等。
组成:俩RGB相机组成被动立体视觉。原理:不主动投射,而是通过俩RGB相机被动拍摄。
2. 结构光:Kinect1,齐刘海的果X等。
- 组成:发射+接收+1RGB。原理:投射结构光。
- 加载一个激光投射器,在激光投射器外面放一个刻有特定图样的光栅,激光通过光栅进行投射成像时会发生折射,从而使得激光最终在物体表面上的落点产生位移。当物体距离激光投射器比较近的时候,折射而产生的位移就较小;当物体距离较远时,折射而产生的位移也就会相应的变大。这时使用一个摄像头来检测采集投射到物体表面上的图样,通过图样的位移变化,就能用算法计算出物体的位置和深度信息,进而复原整个三维空间。Kinect1依赖于激光折射后产生的落点位移,所以在太近的距离上,折射导致的位移尚不明显,使用该技术就不能太精确的计算出深度信息,所以1米到4米是其最佳应用范围。
3. TOF(Time Of Flight):Kinect2等。
组成:发射+接收+1RGB。原理:投射红外光。
现阶段地图