论文阅读《MVS Net：Depth Inference for UNstructured Multi-view Stereo》

CV科研随想录

已于 2023-12-25 14:54:46 修改

阅读量1.1k

点赞数 5

分类专栏： CV顶会(刊)论文阅读文章标签：神经网络机器学习深度学习

于 2021-06-18 14:37:28 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/118021524

版权

CV顶会(刊)论文阅读专栏收录该内容

61 篇文章 29 订阅

订阅专栏

MVS Net：Depth Inference for UNstructured Multi-view Stereo

目录

MVS Net：Depth Inference for UNstructured Multi-view Stereo
一、Background（背景）
二、Framework（网络架构）
1、Feature extraction（特征提取）
2、Differentiable Homography（可微分单应性变化）
3、Volume Cost（代价体）
4、Volume Cost Regularization（代价体正则化）
5、Depth Map Refinement （深度图增强）
6、Loss（损失函数）

三、post Processing
四、Result
附录：可微分单应性变换的过程推导：

论文地址： https://arxiv.org/abs/1804.02505
项目地址： https://github.com/YoYo000/MVSNet

一、Background（背景）

多视图立体匹配（Multi-view Stereo, MVS）是计算机领域中一个核心问题，其目的是通过不同视点拍摄的图像，恢复出真实的三维场景。
传统的三维重建使用手工设计的相似性度量指标和正则化方法计算场景的稠密对应关系。这些方法在非朗伯体表面、无弱纹理区域的场景可以达到很好的效果。但是在弱纹理区域和朗伯体表面，手工设计的相似性指标变得不可信，导致重建结果不完整。

二、Framework（网络架构）

针对传统的手工特征设计的特征鲁棒性不强的问题，作者将深度学习引入到三维重构中。
1. 在2D图像上进行特征提取得到特征图。
2. 通过可微分的单应变换，基于参考视图的相机视锥体构建3D代价体。
3. 使用3D卷积对代价体进行正则化，回归得到初始深度图。
4. 通过参考视图图像优化得到最后的估计的深度图。

1、Feature extraction（特征提取）

每个batch选定N张图片，其中一张为参考视图(Reference image)，其余为源视图(Source images)。
对选定的 $I_{1}$ (Reference image)和多张 $[I_{i}]^{N}_{2}$ (Source images)用CNN进行特征提取，经过两次strides为2的缩放，得到channel为32，长和宽分别为h/4和w/4的feature map;
为了减小参数量和提高计算效率，Feature Extraction Network权值共享。
经过CNN特征提取的特征图，具有较高的语义信息和上下文信息。

2、Differentiable Homography（可微分单应性变化）

在这里插入图片描述

因为 $I_{1}$ 和 $[I_{i}]^{N}_{2}$ 的视角不一致，模型的目的是估计参考视图 $I_{1}$ 的深度图，需要将 $[I_{i}]^{N}_{2}$ 经过可微分的单应变换warp到 $I_{1}$ 对应的相机坐标系内。
根据先验的深度范围信息，以 $I_{1}$ 的主光轴为扫描方向，按照固定的最小深度间隔 $\Theta_{scale}$ ，经过可微分的单应性变换，将 $[I_{i}]^{N}_{2}$ 提取出的特征体积从 $\Theta_{min}$ 映射到 $\Theta_{max}$ ，得到 $[I_{i}]^{N}_{2}$ 的视锥体（源视图的特征体经过相机内外参和目标深度d，映射到目标视图中得到不同深度的特征体）：
$\mathbf{H}_{i}(d)=K_{i} R_{i}\left(I-\frac{\left(R_{1}^{T} \cdot t_{1}-R_{\mathrm{i}}^{T} \cdot t_{i}\right)}{d} n^{T}\cdot R_{1}\right) R_{1}^{T} K_{1}^{-1}\tag{1}$

式中：
$H_{i}$ 代表可微分单应性变换 d代表深度
$K_{i}$ 代表第i个视图的内参矩阵
$R_{i}$ 代表第i个视图的旋转矩阵
$t_{i}$ 代表第i个视图的平移矩阵
$n_{1}^{T}$ 代表参考视图的主光轴方向
注：原文中的公式有误，此处公式与原文不同，具体推导在附录

3、Volume Cost（代价体）

为了使图像大小一致，将视锥体通过线性插值到[D, C, h/4, w/4]大小的特征体， N 张视图可形成 N 个特征体，这一步完成了从2D到3D的转换，后面基于3D的特征体进行运算。
在N个特征体的基础上，基于方差计算多个特征体的匹配代价，这样基于方差来计算匹配代价的方式优于基于均值计算匹配代价，因为方差更能体现不同视图之间的差异性信息。
$\mathbf{C}=\mathcal{M}\left(\mathbf{V}_{1}, \cdots, \mathbf{V}_{N}\right)=\frac{\sum_{i=1}^{N}\left(\mathbf{V}_{i}-\overline{\mathbf{V}_{i}}\right)^{2}}{N}\tag{2}$

4、Volume Cost Regularization（代价体正则化）

直接基于方差计算得到的**初始特征体（initial cost volume）**带有较多的噪声，这些噪声主要由视图间的遮挡等因素造成。
基于3D Convolutional Network 对 initial cost Volume 进行正则化，采用编码解码的原理，利用一个3D Unet网络的结构得到的特征体通过将C通道维度降为1，得到一个概率体（probability volume），其维度为[D, h/4, w/4]，此时输出在D维度上做softMax，在D维度表示每个像素沿深度方向的概率，称之为概率体。
可以采用argmax的方式来求得该像素点的深度值(赢者通吃原则)，但argmax是不可微的操作，这样的操作梯度不可反向传播，作者在这里采用了求期望的方式（soft argmin），估计每一个像素点的深度值。

$\mathbf{D}=\sum_{d=d_{\min }}^{d_{\max }} d \times \mathbf{P}(d)\tag{3}$

5、Depth Map Refinement （深度图增强）

由于3D CNN在正则化过程中，较大的感受野造成重建深度图边界过平滑，作者将 $I_{1}$ 作为一个辅助项和Initial depth map拼接，送入一个带有残差的CNN模块中进行特征融合，得到一个包含更多边界信息的深度图。

6、Loss（损失函数）

使用真实深度图与所估计深度的 $L_{1}$ 损失作为训练损失。计算损失时候不考虑背景的深度，背景深度不进行反向传播，代码实现中用mask将背景剔除。
$\text { Loss }=\sum_{p \in \mathbf{p}_{\text {valid }}} \underbrace{\left\|d(p)-\hat{d}_{i}(p)\right\|_{1}}_{\text {Loss } 0}+\lambda \cdot \underbrace{\left\|d(p)-\hat{d}_{r}(p)\right\|_{1}}_{\text {Loss } 1}\tag{4}$

三、post Processing

通过MVS Net得到参考图像每个像素的深度估计值，进行下一步的稠密点云计算之前，使用光度一致性与几何一致性作为条件对背景区域与遮挡区域的点进行进一步的剔除。
光照一致性条件：沿深度方向的概率分布可以反映深度估计的质量，3D CNN的正则化也有助于将概率分布调整为单峰分布，但由于错误匹配的存在，导致深度概率分布比较离散。因为深度假设是在相机视锥体内离散采样得到的，将四个最近深度的概率求和得到每个像素点最后的估计质量。文章中将估计质量概率值低于0.8的视为外点。
几何一致性条件： $P_{preproj}-P_{1}|<1$ ， $d_{preproj}-d_{1}|/d_{1} < 0.01$ ，就称像素p_1 处的深度估计值d_1是两视图连续。

四、Result

附录：可微分单应性变换的过程推导：

在这里插入图片描述
由对极几何的原理可知(世界坐标系到相机坐标系过程中采用先平移，再旋转)，假设要将 $i$ 视图的特征warp到参考视图的 $d$ 深度：
对于视图1：
$d\cdot p_{1}=K_{1} \cdot p_{c_{1}}=K_{1} R_{1}\left(P_{w}-C_{1}\right)\tag{5}$
对于视图 $i$ :
$Z_{c_{i}} \cdot p_{i}=K_{i} \cdot p_{c_{i}}=K_{i} R_{i}\left(P_{w}-C_{i}\right)\tag{6}$
由投影的几何信息可知：
$n^{T} \cdot p_{c_{1}}-d=0\tag{7}$

其中：d为参考视图相机坐标系下的深度， $p_{i}$ 为 $i$ 视图上的像素点坐标， $K_{i}$ 为 $i$ 视图的内参矩阵， $p_{c_{i}}$ 为 $i$ 视图相机坐标系的坐标， $P_{w}$ 点为对应世界坐标系的坐标， $R_{i}$ 为 $i$ 视图的旋转矩阵， $C_{i}$ 为 $i$ 视图的平移矩阵， $n^{T}$ 为参考视图 $z$ 方向的方向向量；
联立式5和式6得：
$Z_{c_{i}} p_{i}=K_{i} \cdot p_{c_{i}}=K_{i} R_{i}\left(P_{w}-C_{i}\right)=K_{i} R_{i}\left(R_{1}^{T} p_{c_{1}}+C_{1}-C_{i}\right)\tag{8}$
将式7代入式8中，利用R矩阵为正交矩阵，且得：
$\begin{array}{l} Z_{c_{i}} p_{i}=K_{i} \cdot p_{c_{i}}=K_{i} R_{i}\left(P_{w}-C_{i}\right)=K_{i} R_{i}\left(R_{1}^{T} p_{c 1}+C_{1}-C_{i}\right) \\\\ =K_{i} R_{i}\left(R_{1}^{T} p_{c_{1}}+\frac{\left(C_{1}-C_{i}\right) n^{T} \cdot p_{c_{1}}}{d}\right) \\\\ =K_{i} R_{i}\left(I+\frac{\left(C_{1}-C_{i}\right) n^{T}}{d} \cdot R_{1}\right) R_{1}^{T} p_{c_{1}} \\\\ =K_{i} R_{i}\left(I+\frac{\left(C_{1}-C_{i}\right) n^{T}}{d} \cdot R_{1}\right) R_{1}^{T} K_{1}^{-1} p_{1} d \end{array}\tag{9}$
即:
$p_{i}=K_{i} R_{i}\left(I+\frac{\left(C_{1}-C_{i}\right) }{d} n^{T}\cdot R_{1}\right) R_{1}^{T} K_{1}^{-1} p_{1} \cdot \frac{d}{Z_{c_{i}}}\tag{10}$
由于 $p_{i}$ 与 $p_{1}$ 为齐次坐标，因此可以将常数 $\frac{d}{Z_{c_{i}}}$ 消除得：
$p_{i}=K_{i} R_{i}\left(I+\frac{\left(C_{1}-C_{i}\right)}{d} n^{T}\cdot R_{1}\right) R_{1}^{T} K_{1}^{-1} p_{1}\tag{11}$
即：
$p_{i}=H(d)\cdot p_{1}\tag{12}$
其中 $H(d)=K_{i} R_{i}\left(I+\frac{\left(C_{1}-C_{i}\right) }{d} n^{T}\cdot R_{1}\right) R_{1}^{T} K_{1}^{-1}$

由
$\left\{\begin{array}{l} P_{W}=R_{1}^{T} \cdot p_{c_{1}}+C_{1} \\ P_{W}=R_{\mathrm{i}}^{T} \cdot p_{ci}+C_{i} \end{array}\right.$ 得：
$C_{1}-C_{i}=R_{i}^{T} \cdot p_{c_{i}}-R_{1}^{T} \cdot p_{c_{1}}\tag{13}$
由 $\left\{\begin{array}{l} p_{c_{1}}=R_{1} \cdot P_{W}+t_{1} \\ p_{c_{i}}=R_{i} \cdot P_{W}+t_{i} \end{array}\right.$ 得：
$R_{i}^{T} \cdot p_{c_{i}}-R_{1}^{T} \cdot p_{c_{1}} = R_{i}^{T} \cdot t_{i}-R_{1}^{T} \cdot t_{1}\tag{14}$
将式13代入式14中得：
$C_{1}-C_{i}=-\left(R_{1}^{T} \cdot t_{1}-R_{\mathrm{i}}^{T} \cdot t_{i}\right)\tag{15}$
将式15代入式11中得：
$p_{i}=K_{i} R_{i}\left(I-\frac{\left(R_{1}^{T} \cdot t_{1}-R_{\mathrm{i}}^{T} \cdot t_{i}\right)}{d} n^{T}\cdot R_{1}\right) R_{1}^{T} K_{1}^{-1} p_{1}\tag{16}$
即：
$K_{i} R_{i}\left(I-\frac{\left(R_{1}^{T} \cdot t_{1}-R_{\mathrm{i}}^{T} \cdot t_{i}\right)}{d} n^{T}\cdot R_{1}\right) R_{1}^{T} K_{1}^{-1}\tag{17}$

由此得到 $H (d)$ 的表达式，在代码中的实现：
由式16得：
$\begin{array}{l} Z_{i} p_{i}=K_{i} \cdot p_{c i}=K_{i} R_{i}\left(I-\frac{\left(R_{1}^{T} \cdot t_{1}-R_{\mathrm{i}}^{T} \cdot t_{i}\right)}{d} n^{T}\cdot R_{1}\right) R_{1}^{T} K_{1}^{-1} p_{1}d \\\\ =K_{i} R_{i} R_{1}^{T} K_{1}^{-1} p_{1}\cdot d-K_{i} R_{i}\frac{R_{1}^{T} \cdot t_{1}-R_{\mathrm{i}}^{T} \cdot t_{i}}{d} n^{T}\cdot R_{1}R_{1}^{T} K_{1}^{-1} p_{1}d\\\\ =K_{i} R_{i} R_{1}^{T} K_{1}^{-1} p_{1}\cdot d+K_{i} R_{i}(R_{i}^{T} \cdot t_{i}-R_{\mathrm{1}}^{T} \cdot t_{1})n^{T}\cdot K_{1}^{-1} p_{1}\\\\ =K_{i} R_{i} R_{1}^{T} K_{1}^{-1} p_{1}\cdot d+K_{i} R_{i}(R_{i}^{T} \cdot t_{i}-R_{\mathrm{1}}^{T} \cdot t_{1})n^{T}\cdot \frac{p_{c_{1}}}{d} \\\\ =K_{i} R_{i} R_{1}^{T} K_{1}^{-1} p_{1}\cdot d+K_{i} R_{i}(R_{i}^{T} \cdot t_{i}-R_{\mathrm{1}}^{T} \cdot t_{1}) \end{array}\tag{18}$

CV科研随想录

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
论文阅读《MVS Net：Depth Inference for UNstructured Multi-view Stereo》

多视图立体匹配（Multi-view Stereo, MVS）是计算机领域中一个核心问题，其目的是通过不同视点拍摄的图像，恢复出真实的三维场景。传统的三维重建使用手工设计的相似性度量指标和正则化方法计算场景的稠密对应关系。这些方法在非朗伯体表面、无弱纹理区域的场景可以达到很好的效果。但是在弱纹理区域和朗伯体表面，手工设计的相似性指标变得不可信，导致重建结果不完整。针对传统的手工特征设计的特征鲁棒性不强的问题，作者将深度学习引入到三维重构中。
复制链接

扫一扫