Stereo Magnification: Learning view synthesis using multiplane images 论文笔记

_Suraimu_

已于 2022-02-07 22:11:14 修改

阅读量1.5k

点赞数 3

文章标签：计算机视觉深度学习人工智能

于 2022-02-07 22:09:41 首次发布

本文链接：https://blog.csdn.net/qq_39546227/article/details/122811149

版权

在这里插入图片描述

1. 简介

本文主要研究新视角合成任务中 Narrow-baseline Stereo Images Pairs（处于同一水平基线的左右视角图像）输入的情况。本文首次提出了 Multiplane Images (MPI) 的场景表达方式，其优点在于：

只需用网络预测一次 MPI 的场景表达，后续就能重复利用该 MPI 来生成多个不同视角下的图片；
能够有效获取未出现在 Stereo 输入图像中（被遮挡）的场景结构**。

另外，为了训练网络，本文还提出了一种使用在线视频来生成训练数据的方法（不做介绍）。

2. 方法

2.1. MPI 场景表达

在这里插入图片描述
MPI 包含多个平面，每个平面 $d$ 编码两种信息：RGB 颜色图像 $C_d$ ，透明度 Alpha 图 $\alpha_d$ ，因此整个 MPI 可表示为 RGBA 图像的集合，即 $\{(C_1,\alpha_1), ..., (C_D,\alpha_D)\}$ ，其中 $D$ 表示平面的数量（作者最终采用了 32 个平面）。

2.2. MPI 网络学习

在这里插入图片描述
模型训练过程中，输入为 $I_1,I_2,c_1,c_2)$ ，ground truth 为 $I_t,c_t)$ ，其中 $I$ 表示图像， $c_i=(p_i,k_i)$ ， $p_i$ 表示相机外参， $k_i$ 表示相机内参。目标是学习一个 MPI 表达网络 $f_\theta(\cdot)$ ，以 $I_1,I_2,c_1,c_2)$ 作为输入，推断出 MPI 的场景表达，并重建出 $c_t$ 相机参数下的目标图像 $I_t$ 。

网络输入：下面假设 $I_1$ 为 Reference Source， $I_2$ 为 Second Source，为了将 $I_2$ 的位姿信息嵌入到 $I_1$ 中，作者先计算了一个 Plane Sweep Volume (PSV)，即将 $I_2$ 投影到 $I_1$ 的不同深度平面上（由于这里采用 Stereo 图像输入， $I_1$ 和 $I_2$ 位于同一水平基线上，故只需将 $I_2$ 做不同程度的水平偏移即可得到 PSV。和 Stereo Depth Estimation 任务中的 Cost Volume 类似）。之后将 $I_2$ 的 PSV 和 $I_1$ concat 到一起作为网络的输入，输入的尺度为 $H\times W\times 3(D+1)$ 。

网络输出：作者认为如果让网络回归出每个平面对应的 RGBA 四个通道，网络输出的通道数太多，对于网络的学习太过困难，因此，作者采用了一种简单有效的做法，即将每个平面的 RGB 看作是参考图 $I_1$ 和一张统一背景图 $\hat{I}_b$ 的加权平均：
$C_d=w_d\odot I_1+(1-w_d)\odot\hat{I}_b$

那么网络仅需要回归出一张背景图 $\hat{I}_b$ ，每个平面的融合概率 $w_d$ ，以及透明度 $\alpha_d$ ，就能够获得完整的 MPI 表达了。总体而言，原本输出的尺寸为 $WH\cdot4D$ ，在经过调整之后，变为 $WH\cdot(2D+3)$ 。

2.3. 可微分新视角合成

MPI 中每个平面可以表示成 ${\bf n}\cdot {\bf x}+a=0$ ，其中 ${\bf n}$ 为平面法向量， ${\bf x}=[u_s,v_s,1]^T$ 为齐次坐标， $a$ 为偏置项。MPI 所有平面满足平行平面（Fronto Parallel）假设，因此我们可以假设 ${\bf n}=[0,0,1]$ ， $a=-d_s$ ，其中 $d_s$ 为平面深度

从源相机到目标相机的刚性 3D 变换可定义为一个旋转矩阵 $R$ 和一个平移向量 ${\bf t}$ ，这两个参数可以根据相机外参计算得到。现假设源和目标相机的内参为 $k_s$ 和 $k_t$ ，对于目标图像 MPI 中每个像素点 $u_t,v_t)$ ，根据标准的 inverse homography，可以计算像素点在源图像 MPI 上的映射：
$[u_s,v_s,1]^T\sim k_s\Big(R^T+\frac{R^T{\bf tn}R^T}{a-{\bf n}R^T{\bf t}}k_t^{-1}\Big)k_s^{-1}\ [u_t,v_t,1]^T$

利用上述映射关系，可以插值计算出目标图像 MPI 中每个平面的 RGBA 即 $C_i'$ 和 $\alpha_i'$ ，之后采用 Alpha Fusion 中标准的 over 操作将各个平面从后向前合成，即可渲染出新视角下的图像：
$\hat{I}_t=\sum^D_{i=1}\big(C_i'\alpha_i'\prod^D_{j=i+1}(1-\alpha_j')\big)$

2.4. 损失函数

对于每一个训练集合 $I_1,I_2,I_t,c_1,c_2,c_t)$ ，作者采用如下方式优化网络：
$\min_\theta \sum_{(I_1,I_2,I_t,c_1,c_2,c_t)} \mathcal{L} \Big(\mathcal{R}\big(f_\theta(I_1,I_2,c_1,c_2),c_t\big),I_t\Big)$

$\mathcal{R}(\cdot)$ 表示 Sec. 2.3. 中的渲染流程， $\mathcal{L}(\cdot)$ 为合成的新视角图像和 ground truth 之间的损失，作者这里采用了感知损失：
$\mathcal{L}(\hat{I}_t,I_t)=\sum_l\lambda_l\Vert\phi_l(\hat{I}_t)-\phi_l(I_t)\Vert_1$