三维点云depth_计算机视觉的下一步!三维重建的研究总结

三维重建是计算机视觉的重要领域,应用于自动驾驶、虚拟现实等多个场景。本文介绍了三维重建的基本概念、常见表达方式(深度图、点云、体素和网格)以及分类。深度学习在近年来的发展中,为单视图和多视图的三维重建提供了新方法,如基于深度图、体素和点云的重建技术。文章还回顾了近年来的代表性论文,探讨了不同的重建方法及其优缺点,为理解三维重建技术提供了深入的见解。
摘要由CSDN通过智能技术生成
4693d82641f77b8c98b6c067915a26b5.png

来源 | https://zhuanlan.zhihu.com/p/79628068

作者 | 张俊怡

提醒 | 本文已获得作者授权发布,如需转载请与作者联系。

三维重建意义

三维重建作为环境感知的关键技术之一,可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控和重点人群监护等。现在每个人都在研究识别,但识别只是计算机视觉的一部分。真正意义上的计算机视觉要超越识别,感知三维环境。我们活在三维空间里,要做到交互和感知,就必须将世界恢复到三维。所以,在识别的基础上,计算机视觉下一步必须走向三维重建。本文笔者将带大家初步了解三维重建的相关内容以及算法。

三维重建定义

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。

常见的三维重建表达方式

常规的3D shape representation有以下四种:深度图(depth)、点云(point cloud)、体素(voxel)、网格(mesh)。

099bf3157659cb9cc1a9100a1f900046.png

△深度图

深度图其每个像素值代表的是物体到相机xy平面的距离,单位为 mm。

74be375c5be403b63613ca60eb9e2d11.png

△体素

体素是三维空间中的一个有大小的点,一个小方块,相当于是三维空间种的像素。

3b06618dcb698e9a9f362ece1e806784.png

△点云

点云是某个坐标系下的点的数据集。点包含了丰富的信息,包括三维坐标X,Y,Z、颜色、分类值、强度值、时间等等。在我看来点云可以将现实世界原子化,通过高精度的点云数据可以还原现实世界。万物皆点云,获取方式可通过三维激光扫描等。

bf0d4afdabf8e417de5c7ad8af42c990.png 67cbcf0e60941978e33b5c2a0d3fc864.png

△三角网格、用三角网格重建

三角网格就是全部由三角形组成的多边形网格。多边形和三角网格在图形学和建模中广泛使用,用来模拟复杂物体的表面,如建筑、车辆、人体,当然还有茶壶等。任意多边形网格都能转换成三角网格。

三角网格需要存储三类信息:

顶点:每个三角形都有三个顶点,各顶点都有可能和其他三角形共享。.

边:连接两个顶点的边,每个三角形有三条边。

面:每个三角形对应一个面,我们可以用顶点或边列表表示面。

三维重建的分类

根据采集设备是否主动发射测量信号,分为两类:基于主动视觉理论和基于被动视觉的三维重建方法。

主动视觉三维重建方法:主要包括结构光法和激光扫描法。

被动视觉三维重建方法:被动视觉只使用摄像机采集三维场景得到其投影的二维图像,根据图像的纹理分布等信息恢复深度信息,进而实现三维重建。

其中,双目视觉和多目视觉理论上可精确恢复深度信息,但实际中,受拍摄条件的影响,精度无法得到保证。单目视觉只使用单一摄像机作为采集设备,具有低成本、易部署等优点,但其存在固有的问题:单张图像可能对应无数真实物理世界场景(病态),故使用单目视觉方法从图像中估计深度进而实现三维重建的难度较大。

近几年代表性论文回顾

-从单张图像恢复深度图

cf1bc14c117b817217ee7ca70632050b.png

△Depth, NIPS 2014, Cited by 1011

这篇论文思路很简单,算是用深度学习做深度图估计的开山之作,网络分为全局粗估计和局部精估计,对深度由粗到精的估计,并且提出了一个尺度不变的损失函数。

bccb7751ce674cc7705e6733106f9a37.png

△主体网络

913dc147ee663748e89703f3a0b9b3a0.png

△Scale-invariant Mean Squared Error

本文总结

(1)提出了一个包含分为全局粗估计和局部精估计,可以由粗到精估计的网络。

(2)提出了一个尺度不变的损失函数。

-用体素来做单视图或多视图的三维重建

397fe14f95ab8feace807a74d104d36e.png

△Voxel, ECCV 2016, Cited by 342

这篇文章挺有意思,结合了LSTM来做,如果输入只有一张图像,则输入一张,输出也一个结果。如果是多视图的,则将多视图看作一个序列,输入到LSTM当中,输出多个结果。

f6288f69adf7c4e72cf369eb31be4a14.png 514872c53f7f7c2c07d94359d22ca80c.png

△Framework

如主框架所示,这篇文章采用深度学习从2D图像到其对应的3D voxel模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值