ECCV2018 oral MVSNet 错误公式纠正及正确源代码推导解释

培之

已于 2022-10-12 14:17:01 修改

阅读量886

点赞数 6

分类专栏：计算机视觉/图形学文章标签：计算机视觉人工智能 ECCV

于 2021-11-06 20:26:28 首次发布

本文链接：https://blog.csdn.net/OrdinaryMatthew/article/details/121179641

版权

计算机视觉/图形学专栏收录该内容

39 篇文章 4 订阅

订阅专栏

2022-10-10 更新

这个公式与经典的 homography 的区别就在于用世界坐标系到两个相机分别的旋转、平移替代掉了两个相机之间的旋转、平移。

原文

ECCV2018 的一篇 oral 论文 MVSNet: Depth Inference for Unstructured Multi-view Stereo 开启了用 深度学习做 MVS 的先河，但是在该篇论文的 3.2 Cost Volume 部分，却有一个关于 homography 的错误公式，令人匪夷所思的是，在它的Github 开源代码的相关部分，代码却是按照正确的公式来写的。该论文的错误公式影响了后面的许多论文，比如 CVPR 2020的一篇 oral 论文Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching 。本文会推导正确公式，并且解释 MVSNet 论文 Github 开源代码中相关代码为什么表示了正确了公式。
在这里插入图片描述

图1. ECCV2018 MVSNet: Depth Inference for Unstructured Multi-view Stereo 论文中 3.2 Cost Volume 错误公式

在这里插入图片描述

图2. CVPR2020 Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching 论文中 3.1. Cost volume Formulation 错误公式

首先，在图1 公式中有个明显的错误，就是等式最右边的项 $K_{1}^{T}$ ， 内参矩阵的转置毫无意义，论文中想要表达的是内参矩阵的逆，应该是 $K_{1}^{-1}$ 。
为了推导出正确的公式，本文需要做两个准备

准备1 推导出关于两个视图的R, t

首先，对于数据集中的所有视图（image），共用一个公共的世界（大地）坐标系。在准备数据集的时候，每个视图都会做 calibration，都会得到从世界坐标系到每个视图的相机坐标系下需要做的旋转（ $3\times3$ 旋转矩阵）和平移（ $3\times1$ 平移向量）。论文中是多视图，且有对于每个 3d scene，指定第一张 image 为 reference image。在本文中，只需推导两个视图的情况。针对多视图的公式，只需要固定 reference image的视图，另外一个视图更换成其他的视图即可。

在这里插入图片描述

图3. 世界坐标系 W 到相机坐标系 C 旋转

R_{1}

，平移

t_{1}

,世界坐标系 W 到相机坐标系 $C^{'}$ 需要旋转

R_{2}

，平移

t_{2}

, 相机坐标系 $C$ 到相机坐标系

C^{'}

之间需要旋转

R

, 平移

t

。
设世界坐标系

W

任意一点

P

，则

P

首先经过

R_{1},t_{1}

到相机坐标系

C

下，然后经过

R, t

到相机坐标系

C^{'}

下，最后经过

R_{2},t_{2}

的逆作用又重新回到世界坐标系

W

下的点

P

, 即

\begin{bmatrix} R_{2}&t_{2}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}^{-1} \begin{bmatrix} R&t\\ \bold{0}_{1\times3}&1\\ \end{bmatrix} \begin{bmatrix} R_{1}&t_{1}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}P=P\tag{1}

其中

P

为

4\times1

的齐次坐标。由于式（1）对世界坐标系

W

下任意的点都成立，故

\begin{bmatrix} R_{2}&t_{2}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}^{-1} \begin{bmatrix} R&t\\ \bold{0}_{1\times3}&1\\ \end{bmatrix} \begin{bmatrix} R_{1}&t_{1}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix} = I\tag{2}

其中，

I

为

4

阶单位阵。由式（2）得

\begin{bmatrix} R&t\\ \bold{0}_{1\times3}&1\\ \end{bmatrix} = \begin{bmatrix} R_{2}&t_{2}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix} \begin{bmatrix} R_{1}&t_{1}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}^{-1} \tag{3}

又

\begin{bmatrix} R_{1}&t_{1}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}^{-1}= \begin{bmatrix} R_{1}^{-1}&-R_{1}^{-1}t_{1}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}\tag{4}

将式（4）带入式（3）得

\begin{bmatrix} R&t\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}= \begin{bmatrix} R_{2}R_{1}^{-1}&-R_{2}R_{1}^{-1}t_{1}+t_{2}\\ \bold{0}_{1\times3}&1\\ \end{bmatrix}\tag{5}

故

R_{2}R_{1}^{-1}\tag{6}

t=-R_{2}R_{1}^{-1}t_{1}+t_{2}\tag{7}

准备2 Homography 矩阵

在这里插入图片描述

图4. 两个相机视角 $C$ , $C^{'}$ 同时看 3d 空间中共面 3d点。
如果对与法向量相关的 homography 矩阵不熟悉也没关系，请移步博文 Planar Homography（与平面法向量相关）。
右视图像素平面的像素点

q^{'}

和左视图像素点平面的像素点

q

有如下关系：

q^{'}= sK_{2}(R-t\frac{n^{T}}{d})K_{1}^{-1}q \tag{8}

从一个像素平面到另一个像素平面的 homography 矩阵

K_{2}(R-t\frac{n^{T}}{d})K_{1}^{-1} \tag{9}

综合推导

将式（6）（7）带入式（9）得，
$K_{2}(R_{2}R_{1}^{-1}-(-R_{2}R_{1}^{-1}t_{1}+t_{2})\frac{n^{T}}{d})K_{1}^{-1} \tag{9}$ 本文想将式（9）往图1 的形式变，故向左提一个 $R_2$ ，得
$K_{2}R_{2}(R_{1}^{-1}-\frac{1}{d}(-R_{1}^{-1}t_{1}+R_{2}^{-1}t_{2}){n^{T}})K_{1}^{-1}$ 进而向右边提一个 $R_{1}^{-1}$ ，注意 $R_{1}^{-1}=R_{1}^{T}$ ，得
$K_{2}R_{2}(I-\frac{1}{d}(-R_{1}^{-1}t_{1}+R_{2}^{-1}t_{2}){n^{T}}R_{1})R_{1}^{T}K_{1}^{-1}\tag{10}$
对比图1 公式和式（10），要想两者相等，则需要式（11）恒成立
$(-R_{1}^{-1}t_{1}+R_{2}^{-1}t_{2})n^{T}R_{1} = (t_{1}-t_{2})n^{T} \tag{11}$ 但是式（11）显然不一定恒成立。
故图1，图2所示公式错误，正确公式为（10），且错误公式与正确公式相差的就在式（11）的等号左右。等号左边为正确，等号右边为错误。

源代码解释

相关代码在Github 开源代码的 mvsnet 的 homography_warping.py中。令人匪夷所思的是，源代码是按照正确的公式（10）写的。错误公式与正确公式相差的就在式（11）的等号左右两边的式子。等号左边为正确，等号右边为错误。

首先图5 源代码截图中的变量 $t_{left}$ 对应本文公式中的 $t_{1}$ ，变量 $R_{left}$ 对应 $R_1$ ，变量 $R_{left\_trans}$ 对应 $R_{1}^{T}$ ，又 $R_1^{T}=R_{1}^{-1}$ ，故变量 $c_{left}=-R_{1}^{-1}t_{1}$ $c_{right}=-R_{2}^{-1}t_{2}$ $c_{relative}=R_{1}^{-1}t_{1}-R_{2}^{-1}t_{2}\tag{12}$ 式（12）与式（10）是匹配的。
在这里插入图片描述

图5. homography_warping.py 79-81行
下面再来看一下令人感觉莫名奇妙的一行代码（homography_warping.py 第77行代码）

fronto_direction = tf.slice(tf.squeeze(R_left, axis=1), [0, 2, 0], [-1, 1, 3])          # (B, D, 1, 3)

首先这个代码是 tensorflow 框架，所以需要对 tensorflow有点了解。代码的意思呢是取出 $R_{left}$ 的第三行赋值给 fronto_direction 。由于 $R_{left}$ 也就是 $R_{1}$ 是一个 $3\times3$ 的矩阵，[0, 2, 0], [-1, 1, 3] 的含义是从第2+1行第0+1列水平方向取1行，竖直方向取3列，也就是取矩阵 $R_1$ 的第 $3$ 行。那么为什么要写这么一行莫名其妙的代码？fronto_direction 是不是 $n^{T}R_{1}$ ?如果是那么
$c_{relative}\times{fronto\_direction } := (-R_{1}^{-1}t_{1}+R_{2}^{-1}t_{2})n^{T}R_{1}$

[0, 2, 0], [-1, 1, 3])          # (B, D, 1, 3)

确实如此。
在这里插入图片描述

图6. Plane Sweeping
图6是俯视图，论文MVSNet: Depth Inference for Unstructured Multi-view Stereo 是在相机平面前面每隔一段距离“插”一个与相机平面平行（fronto-parallel）的平面，平面的法向量

n

指向相机 COP，故

n= (0,0,-1)^{T}

则从矩阵

R_{1}

抽出第三行构成一个向量的结果等于

n^{T}R_{1}

。

说明

本文全文的内容来自YOTUBE视频 ☆賀1000人訂閱★ Mutli-view stereo多視角立體重建技術介紹 ※又發現論文裡的錯誤了！，该大佬的Github

培之

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
1
评论
ECCV2018 oral MVSNet 错误公式纠正及正确源代码推导解释

ECCV2018 的一篇 oral 论文 MVSNet: Depth Inference for Unstructured Multi-view Stereo 开启了用深度学习做 MVS 的先河，但是在该篇论文的 3.2 Cost Volume 部分，却有一个关于 homography 的错误公式，令人匪夷所思的是，在它的Github 开源代码的相关部分，代码却是按照正确的公式来写的。该论文的错误公式影响了后面的许多论文，比如 CVPR 2020的一篇 oral 论文Cascade Cost Volum
复制链接

扫一扫