学习笔记（1）

Agent 1

于 2019-12-03 12:29:23 发布

阅读量227

点赞数

本文链接：https://blog.csdn.net/weixin_42663567/article/details/103365066

版权

三维模型一般的表示方式：点云（Point Clouds）、网格（Meshes）、体素（Voxels）、深度图（Depth maps）等。
其传统方法流程（pipeline）：提取图像特征（如SIFT、SURF等）->利用特征将图像计算图像之间的特征匹配->基于匹配的特征进行稀疏重建，得到各个图像的相机位姿和稀疏的特征点云（SfM）->基于相机位姿进行稠密重建，得到稠密点云（PMVS/CMVS）->基于点云重建网格、体素或者纹理
这里会涉及到三个坐标系：图像坐标系、相机坐标系和世界坐标系。所谓相机的内参矩阵就是相机坐标系的坐标和图像坐标系坐标的变换矩阵（K）；而外参矩阵则指的是相机坐标系和世界坐标系之间的欧氏变换矩阵，包括平移矩阵T和旋转矩阵R。以Xc表示相机坐标系坐标，Xw表示世界坐标系坐标，Xc=R*Xw+T。

矩阵K是相机的内参矩阵，它是由相机的内参组成，垂直、水平焦点（光心）长度(fx, fy),主点（cx, cy）,畸变参数s。[R|T]矩阵为外参矩阵，R是相机的旋转矩阵，T是相机的平移矩阵。由于相机传感器的质量问题，人们很少估计相机投影矩阵的11个参数，一般假设没有畸变即s = 0,传感器为方形即fx = fy，图像没被裁剪时主点在相机中心,因此普通针孔相机的相机参数由焦距f,旋转矩阵R和平移矩阵T中7个参数组成;
sfm是一个估计相机参数及三维点位置的问题，可以描述为:对每张2维图片检测特征点（feature point），对每对图片中的特征点进行匹配，只保留满足几何约束的匹配，最后执行一个迭代式的、鲁棒的SfM方法来恢复摄像机的内参（intrinsic parameter）和外参(extrinsic parameter)。并由三角化得到三维点坐标，然后使用Bundle Adjustment进行优化。
通过SFM获得相机的姿态和特征点的位置后（若采用单目可能还存在尺度不确定问题）对于重建问题还远远不够，因为特征点往往是一些稀疏的点，因此下一步是通过MVS获得重建目标的稠密表示。
在mvsnet的文章中作者提到：根据输出表示，MVS方法可分为1）直接点云重建、2）体积重建和3）深度图重建。基于点云的方法直接在三维点上操作，通常依赖于传播策略来逐渐增加稠密程度重建。由于点云的传播是相继的，这些方法很难完全并行化，而且通常需要很长的处理时间。（并行计算是只有独立性的计算，如矩阵的加减，因为只涉及到对应下标的元素的加减，不同下标元素毫无关联，所以适用于并行计算；而对于如阶乘的计算则必须对所有数累积相乘，故无法采用并行计算）基于体积的方法将三维空间划分为规则网格，然后估计每个体素是否附着在曲面上。这种表示的缺点是空间离散化错误和高内存消耗。与之相比，深度图是灵活的表现形式。它将复杂的MVS问题分解为相对较小的逐视图深度图估计问题，每次只关注一个参考图像和少量源图像。
mvsnet作者在Cost Volume Regularization运用了3D cnn，而这个模型类似于3D版本的unet。3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，因此捕捉运动信息。Cost Volume C 可以看作D个cost maps {C(i)}于深度方向前后连接在一起，D是深度。那么对Cost Volume Regularization，多个cost maps链接在一起也就类似于3D cnn中多个帧堆叠。而unet则是一个u型结构，经历下采样和上采样（卷积池化和反卷积），在文中作者使用encoder-decoder这样的结构去提取probability volume。
而在rmvsnet，使用convolutional GRU，GRU是比LSTM更简洁的模型，只有update gate和reset gate，其结构是有多个GRU单元堆栈形成一个深度网络，从而产生Probability volume，这是一个比3D unet在内存占用上更有效率的模型。
深度图转点云就是根据世界坐标系到图像的映射过程，只要知道相机的内参，通过公式将图像点转换到世界坐标点。
参考：https://www.cnblogs.com/cv-pr/p/5719350.html
http://www.jfyang.com/wordpress/?p=86