随着大规模标注数据的发展,近年来深度学习技术在语音、语言、图像等领域都取得了长足的进步,尤其是在计算机视觉领域,海量的2D图像数据极大地提高了深度学习模型的性能,使其在多个场景成功落地。
然而,在自动驾驶、机器人、AR、医疗等应用中,仅仅依靠2D图像数据无法实现对距离、姿态等空间信息的需求,因此需要利用3D数据来提供位置、形状和几何信息。通过3D传感器获取3D数据也成为这些领域取得关键性突破的首选。
自动驾驶中,准确识别和精确定位人、车、物等交通对象是车辆在复杂动态环境中能够进行可靠导航、信息决策以及安全驾驶的关键。为确保上述两个任务的顺利开展,无人驾驶车辆通常需要配备多种传感器,例如相机、LiDAR。
基于相机捕获的图像数据,能够低成本高效率的识别出交通对象的信息,是感知任务中的常用手段;利用LiDAR提供的密集、准确的3D点云数据,能精确的估计自车以及其他交通对象的位置和距离信息,这是实现安全驾驶的关键所在。此外,由于LiDAR对光线变化不敏感,因此,将2D和3D数据相结合,可有效避免诸如夜晚、雨雪天气等恶劣光线环境造成的错误决策。
3D雷达点云数据标注示例
在人体姿态预测方面,3D数据可有效解决密集人群、运动、遮挡等一系列具有挑战性的任务;即使在已经相对成熟的人脸识别领域,利用3D点云辅助2D图像对活体检测及识别准确率都将带来一定程度的提升,进一步挖掘了人脸识别的发展潜力。
从上面的示例中可以看出,在自动驾驶、运动追踪等诸多应用中,3D数据不仅能促进计算机视觉领域中一些关键技术的突破,还因为多维度信