论文阅读《Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference》

CV科研随想录

已于 2023-12-25 14:58:09 修改

阅读量1.4k

点赞数 1

分类专栏： CV顶会(刊)论文阅读文章标签：深度学习计算机视觉机器学习

于 2022-02-13 20:49:30 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/122912565

版权

CV顶会(刊)论文阅读专栏收录该内容

62 篇文章 34 订阅

订阅专栏

论文地址：Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference

问题的提出：

MVSNet中的3D卷积正则化模块显存消耗过大，使得模型难以在高分辨率的场景中使用，为此将3D卷积正则化模块替换成GRU模块，减小模型参数；

网络整体架构

在这里插入图片描述

1.共享网络提取模块+可微分单应性变换+基于方差计算代价体

在这里插入图片描述
选取一张参考视图与N-1张源视图共N张图片经过权值共享的网络提取模块中得到N个[B, C, h, w]的特征体；此后参照MVSNet，通过相机的内外参和目标深度，将源视图的特征体投影到参考视图中；最后使用基于方差的方式计算得各个深度的匹配代价体；

2.GRU-Convolution正则化模块

在这里插入图片描述
沿着深度方向使用多层堆叠的GRU-Convolution模块来正则化代价体，得到深度从 $D_{min}到D_{max}$ 的聚合代价体，以减少显存消耗，使其适用于大尺度的三维场景重建。

3. 在深度方向上进行softmax

在这里插入图片描述
在深度方向上进行softmax，得到概率体P

损失函数

$s=\sum_{\mathbf{p}}\left(\sum_{i=1}^{D}-\mathbf{P}(i, \mathbf{p}) \cdot \log \mathbf{Q}(i, \mathbf{p})\right)\tag{1}$
使用交叉熵损失，将深度回归问题转换为分类问题来处理；

视差优化

由于直接使用softmax来得到概率体的步骤无法得到亚像素精度的深度值。采用传统梯度下降的方法来进行视差优化；
$\begin{aligned} E^{i}(\mathbf{p}) &=E_{\text {photo }}^{i}(\mathbf{p})+E_{\text {smooth }}^{i}(\mathbf{p}) \\ &=\mathcal{C}\left(\mathbf{I}_{1}(\mathbf{p}), \mathbf{I}_{i \rightarrow 1}(\mathbf{p})\right)+\sum_{\mathbf{p}^{\prime} \in \mathcal{N}(\mathbf{p})} \mathcal{S}\left(\mathbf{p}, \mathbf{p}^{\prime}\right) \end{aligned}\tag{2}$
对于第i张源视图，由预测的深度图与相机参数将 $\mathbf{I}_{i}$ 投影到参考视图 $\mathbf{I}_{i \rightarrow 1}(\mathbf{p})$ ，设置结构损失 $E_{\text {photo }}^{i}(\mathbf{p})$ 和平滑损失 $E_{\text {smooth }}^{i}(\mathbf{p})$ ，其中投影结构损失基于ZNCC(zero-mean normalized crosscorrelation)来计算；使用bilateral squared difference来计算中心点p和领域点的平滑损失；最后基于梯度下降法来优化预测深度图；