深度学习大讲堂致力于推送人工智能,深度学习方面的最新技术,产品以及活动。请关注我们的知乎专栏!
本文转载自CCF-CV,已获得专家委员会同意。
摘要
三维形状特征表示是三维目标识别、三维人脸识别以及三维模型检索等研究的基础,在机器人、AR/VR、人机交互、遥感测绘等领域有着广泛的应用前景。近三年来,针对三维形状数据深度特征表示的研究得到了越来越多的关注。本文对该方向所面临的挑战进行了分析,并对现有算法进行了简要综述。
引言
随着三维成像技术的快速发展,低成本小型化三维传感器近年来大量涌现并逐步配备到移动设备中,典型代表如Kinect,Realsense和Google Tango。三维传感器能很好地捕获场景三维信息,使智能设备更好地感知和理解周围环境,在机器人、AR/VR、人机交互、遥感测绘等多个领域具有广阔的应用前景。
三维传感器获得的数据是物体三维形状的直观反映,其可以表示为深度图、点云或者网格等多种形式。其中,深度图只能表示物体在单个视点下的距离信息,因此常称为2.5维数据,而点云和网格能表示物体在多个视点下的信息,因此常称为三维形状数据。有效的三维形状特征表示是实现点云配准、三维模型重建、三维形状检索、三维目标识别、三维生物特征识别、场景语义分割、以及定位制图等视觉任务的基础。
一个好的特征应该具有良好的鉴别力、稳健性、不变性以及计算效率。自上世纪90年代开始,三维形状特征提取算法经历了20余年的发展,逐步从手工特征过渡到基于深度学习的特征。手工特征通常通过提取三维形状几何属性的空间分布或直方图统计等方法得到,典型代表如Spin Image、FPFH、Heat Kernel Signature (HKS)、MeshHOG、RoPS等[1]。但这类方法依赖于研究者的领域知识,无法获得适用于某一特定任务的最优三维形状特征表示。近年来,随着三维形状数据集的不断完善,深度学习模型开始应用于三维形状特征表示,并产生了大量的研究成果。本文旨在简要综述该领域面临的主要挑战,研究进展以及潜在研究方向。
一、面临的挑战
相对于二维图像领域,深度学习模型在三维形状上的研究起步较晚,仅在近三年取得了较大的进展。该领域面临的主要问题如下。
1.1 三维形状的结构化表示
图像是结构化的,可以表示为二维平面上的一个矩阵,但三维点云和网格都是非结构化的,不能直接输入到深度神经网络中。因此,采用深度学习模型首先要解决三维形状的结构化表示问题。主要思路包括:1)在三维形状上手工提取低级特征,再采用深度学习模型提取高级特征;2)将三维点云或网格转化为系列二维图像,再采用深度学习模型提取特征;3)将三维形状体素化得到结构化表示,再构建三维深度学习模型提取特征;4)设计能适应原始三维数据特点的深度学习模型。
1.2 公共数据集较小
相比于ImageNet等千万量级的二维图像数据集,传统的三维形状数据集很小。近年来发布的较大的数据集包括用于形状分类与检索的ModelNet和ShapeNet。ModelNet包含了来自662类的127915个三维形状,其子集Model10包含了来自10类的4899个三维形状,ModelNet40包含了来自40类