论文阅读《Fast-MVSNet: Sparse-to-Dense Multi-View StereoWith Learned Propagation and Gauss-Newton Refine》

CV科研随想录

已于 2023-12-25 14:29:08 修改

阅读量1.3k

点赞数

分类专栏： CV顶会(刊)论文阅读文章标签：计算机视觉深度学习神经网络

于 2022-02-27 15:11:35 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/123161841

版权

CV顶会(刊)论文阅读专栏收录该内容

59 篇文章 28 订阅

订阅专栏

论文地址：Fast-MVSNet: Sparse-to-Dense Multi-View StereoWith Learned Propagation and Gauss-Newton Refine

一、摘要

以往的MVSNet都聚焦于提高精度，这篇文章从效率入手，提出了Fast-MVSNet。在重建过程中采用从稀疏到稠密，从粗糙到精细的策略。网络主要分为三个部分：

构造稀疏代价体来学习得到稀疏但高分辨率的深度图；
使用小型的CNN模块对局部区域内像素的深度依赖关系进行抽取，以此来稠密化深度图；
3.使用可微分的高斯牛顿层来处理得到亚像素精度的深度图。

二、网络结构

在这里插入图片描述

2.1 稀疏深度图生成

在这里插入图片描述

第一步是针对参考视图 $I_{0}$ 生成稀疏的高分辨率的深度图如图所示：
在这里好好图片描述
一般的MVSNet方法使用分辨率的深度图进行训练需要将ground true图像下采样，下采样过程中会导致不对齐，丢失细节；下采样过程中，在视差不连续的区域会产生错误插值。
和一般的做法一样，先是使用卷积神经网络提取图像特征，经过相机参数warp到参考视图构建代价体，得到 $\frac{1}{4}H \times\frac{1}{4}W \times N\times F$ 的稀疏代价体，其中 $N$ 为深度范围， $F$ 为特征通道数。由于稀疏的代价体的表现像空洞卷积，因此能拥有更大的感受野。最后使用一个3D U-Net来对稀疏代价体正则化，经过可微分的 argmax操作得到一个稀疏的初始深度图。

2.2 深度传播

在这里插入图片描述
初始深度图估计得到了一个稀疏的初始深度图 $D$ ，在这一步需要将初始深度图经深度传播得到一个稠密的深度图 $\tilde{D}$ ,使用联合双边上采样，使用原始图像作引导信息如式1所示：
$\tilde{D}(p)=\frac{1}{z_{p}} \sum_{q \in N(p)} D(q) f(\|p-q\|) g\left(\left\|I_{p}-I_{q}\right\|\right)\tag{1}$
其中， $f$ 用于衡量两个像素之间的空间距离， $g$ 用于衡量两个像素之间的特征相似性， $N (p)$ 为 $k\times k$ 的邻域像素， $z_{p}$ 是归一化项；使用一个简单的神经网网络来表示 $f(\|p-q\|) g\left(\left\|I_{p}-I_{q}\right\|\right)$ 如式2所示：
$\tilde{D}(p)=\frac{1}{z_{p}} \sum_{q \in N(p)} D(q) \cdot w_{p, q}\tag{2}$
其中权重 $w_{p,q}$ 可以通过神经网络来学习到；

2.3 高斯牛顿层优化

在这里插入图片描述
由于前面的步骤为了兼顾效率，因此得到的稠密深度图的精度需要进一步提升，为此使用可微分的高斯牛顿法来优化深度图，优化的目标是最小化一下的代价函数：
$E(p)=\sum_{i=1}^{N}\left\|F_{i}\left(p_{i}^{\prime}\right)-F_{0}(p)\right\|_{2}\tag{3}$
其中 $F_{i}$ 和 $F_{0}$ 分别表示源图像和参考图像提取得到的特征， $p_{i}^{\prime}$ 表示参考视图中的 $p$ 点在第 $i$ 个视图中的对应点， $p_{i}^{\prime}$ 点计算公式如式4所示（先将p点反投影到到世界坐标系中，再投影到 $i$ 视角的图像坐标系中， $\tilde{D}(p)$ 为深度值）：
$p_{i}^{\prime}=K_{i}\left(R_{i} R_{0}^{-1}\left(\tilde{D}(p) K_{0}^{-1} p-t_{0}\right)+t_{i}\right)\tag{4}$
其中 $\left\{K_{i}, R_{i}, t_{i}\right\}_{i=0}^{N}$ 分别表示第 $i$ 视图的相机内参，旋转矩阵和平移矩阵；
使用高斯牛顿法来最小化代价函数 $E_{p}$ ，对于每个残差 $r_{i}(p)$ ，计算关于初始深度值 $\tilde{D}(p)$ 的一阶导数：
$J_{i}(p)=\frac{\partial F_{i}\left(p_{i}^{\prime}\right)}{\partial p_{i}^{\prime}} \cdot \frac{\partial p_{i}^{\prime}}{\partial \widetilde{D}(p)}\tag{5}$
以此得到当前深度值的增量 $\delta$
$\delta=-\left(J^{T} J\right)^{-1} J^{T} r\tag{6}$
式中， $J$ 为雅克比矩阵 ${J_{i}(p)\}_{i=1}^{N}$ ， $r$ 为残差向量 ${r_{i}(p)\}_{i=1}^{N}$ ，更新后的深度值如式7所示：
$\tilde{D}^{\prime}(p)=\tilde{D}(p)+\delta\tag{7}$

三、损失函数

损失函数如式8所示：
$\text { Loss }=\sum_{p \in \mathbf{p}_{\text {valid }}}\|\tilde{D}(p)-\hat{D}(p)\|+\lambda \cdot\left\|\tilde{D}^{\prime}(p)-\hat{D}(p)\right\|\tag{8}$
其中 $\hat{D}(p)$ 为ground true深度图， $p_{value}$ 为有效的像素点集合；同时使用了优化前和优化后的深度图求损失；

四、实验结果

在这里插入图片描述

CV科研随想录

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读《Fast-MVSNet: Sparse-to-Dense Multi-View StereoWith Learned Propagation and Gauss-Newton Refine》

Fast-MVSNet: Sparse-to-Dense Multi-View StereoWith Learned Propagationand Gauss-Newton Refinement
复制链接

扫一扫