众所周知,计算机视觉的目标是对图像进行理解。我们从图像中获取视觉特征,从视觉特征中对图像、场景等进行认知,最终达到理解、感知、交互。目前,比较主流的计算机视觉基本是基于二维数据进行的,但是回顾计算机视觉的发展历程,我们不难看出特征提取的演化过程是随着计算机的算力条件的不同而发展的。随着硬件的飞速发展,我们获取三维数据和处理三维数据的成本越来越低,而需求却越来越高,因此基于三维数据进行的计算机视觉也逐渐发展和壮大起来。本篇文章,小编为大家整理了基于三维数据的深度学习的一些内容,包括三维数据在产业中的应用、三维数据采集的硬件设备及其原理、三维数据(主要是三维点云)在形状分类、目标检测和跟踪、图像分割三大领域中的代表工作以及目前使用三维数据进行深度学习模型建立和求解的过程中存在的问题。
作者:智源社区 钱小鹅
三维数据的应用综述
所谓三维(3D)数据,是指数据包含了现实三维场景中完整的几何信息的数据,与我们熟悉的二维数据相比,由于3D数据带有深度信息,因此它也成为了实现高精度识别、定位、重建、场景理解等机器视觉的关键。
相对二维数据,3D数据虽然在数据表达上具有天然的优势,但由于在算法处理中需要更多的算力以及更复杂的模型,硬件设备搭建的复杂性以及成本的昂贵性等原因,在发展初期通常只用于军工、医疗等非常专业的领域。近年来,由于3D的传感器的不断迭代和发展,使得获取的点云数据精度不断提高,同时硬件成本不断下降,以及虚拟网络应用趋向转为物理世界应用的原因,使得3D数据的应用逐渐从专业领域向消费级产品进行过度,以2010年Kinect和2017年iPhoneX的发布为标志,使用3D数据驱动的方法用于对现实世界的理解以及交互显然变得越来越重要。目前,3D数据常被使用的领域包括:
(1) 消费电子:如人脸活体检测及识别;3D感应人体关键骨骼点,进行体感互动游戏;手势识别及控制、构建三维信息进行虚拟和真实世界交互。
图1:三维数据在消费电子领域应用
(2) 机器人:如精确识别障碍物进行自动避障;获取周围环境深度信息,定位及构建地图;智能导航、无人机定高悬停等。
图2:三维数据在机器人领域应用
(3) 安防监控&轨道交通:如获取人体深度数据进行人数统计、人员跟踪;通过智能方向识别忽略交错人流;智能停车、车辆识别;增加监控环境三维信息,实时监控车辆等。
图3:三维数据在安防监控&轨道交通应用
(4) 无人驾驶&工业自动化:激光雷达将与其他传感器融合用于无人驾驶中;车厢监控,监测驾驶员疲劳状态,监控车内人员情况;仓储分拣,智能识别货物信息 ;物流包裹体积测量,可快速识别包裹长宽高等。
图4:三维数据在无人驾驶&工业自动化领域应用
三维数据采集设备介绍
现行专业级或者消费级的三维点云数据的采集硬件大体可以分为两大类:3D相机和激光雷达。3D相机是在原有相机成像的原理基础上叠加深度信息,目前3D相机获取深度信息通常采用两种主流技术,三角法(Triangulation)和飞时法(Time-of-Flight, ToF)。采用三角法的3D视觉技术包括双目技术和结构光技术,基本原理采用三角几何视差来获得目标到相机的距离信息。这种方法在近距离有着很高的精度,但是误差会随着距离增大而快速变大。ToF技术测量相机是指主动投射出的光束经过目标表面反射后被相机接收这个过程的来回的飞行时间,基于光速即可获得目标到相机的距离。ToF技术在不同距离的误差相对三角法更稳定,在远距离有着更好的精度。除3D相机外,经常提及的3D数据采集设备还包括激光雷达。所谓激光雷达,即激光探测与测距,是一种类似于雷达的主动式遥感技术,利用的是激光光波而非无线电波,具有快速、准确的特点。激光雷达在自动驾驶、机器人定位及建图、三维重建等领域中通常会搭配视觉相机进行算法集成。接下来,我们为大家具体介绍不同传感器获取三维点云数据的原理。
TOF
TOF工作原理可以分为两类:i-ToF和d-ToF。i-ToF,即indirect ToF,通过传感器在不同时间窗口采集到能量值的比例关系,解析出信号相位,间接测量发射信号和接收信号的时间差,进而得到深度。d-ToF即direct ToF,相比于i-ToF技术用测量信号的相位来间接地获得光的来回飞行时间,d-ToF (direct time-of-flight) 技术直接测量光脉冲的发射和接收的时间差。
图5:TOF工作原理
双目/结构光
双目深度重建利用的是三角测距法计算被测物体到相机的距离。具体的说,就是从两个相机观察同一物体,被观测物体在两个相机中拍摄到的图像中的位置会有一定位置差。正如将一只手指放在鼻尖前,左右眼看到的手指位置会有一个错位的效果。这个位置差称为视差,被摄物离相机越近,视差就越大;距离越远,视差就越小。在已知两个相机间距等相对位置关系的情况下,即可通过相似三角形的原理计算出被摄物到相机的距离。
图6:双目工作原理
结构光方案是一种主动双目视觉技术。每个结构光相机包括两个基本组件:一个红外激光投射端和一个红外摄像头。其基本思路是将已知的结构化图案投影到被观测物体上,这些结构化图案将根据物体的几何形状和拍摄距离而发生相应的形变。红外摄像头从另一个角度进行观察,通过分析观测图案与原始图案之间发生的形变,可以得到图案上各像素的视差,再根据相机的内外参恢复出深度。
图7:结构光工作原理
激光雷达[2]
激光测距的方法主要分为两类:一类是连续波测距法;另一类是脉冲测距法。激光雷达可以采用在平面上进行线扫描的二维激光雷达或能够进行面扫描的三维激光雷达。激光雷达主要由激光光源、激光发射与接收光学及机械系统、信号接受采集系统、控制系统等部分组成。激光雷达采用脉冲或连续波两种工作方式,探测方法分为直接探测和外差探测,通过发射一定频率的激光脉冲,激光雷达把短激光脉冲发射到大气层,沿着它的轨迹,光被小粒子以及空气