Stereo Magnification: 使用多平面图像学习视图合成-论文翻译

最新推荐文章于 2023-02-11 15:23:54 发布

KassadinSw

最新推荐文章于 2023-02-11 15:23:54 发布

阅读量1.8k

点赞数 1

分类专栏：论文翻译

论文翻译专栏收录该内容

3 篇文章 1 订阅

订阅专栏

一、简介
过去十年，摄影经历了一场巨变。手机摄像头逐渐取代了傻瓜相机，并且开始与数码单反产生竞争。这一变化是由不断提高的手机相机图像质量所推动的，这不仅仅得益于更好的硬件，还得益于像高动态范围光照和合成散焦这样的图形摄影功能。最近的许多创新都视图复制传统相机的功能。然而，手机上新型传感器的飞速发展，如多镜头和深度传感器，使其应用超越了传统摄影。
特别的是，双摄手机越来越普遍。虽然立体相机的历史和摄影差不多一样长，但是最近市场上出现了一些双摄手机，比如IPhone 7。这些相机的基线(视图之间的距离)往往非常小，大约只有一厘米。我们还看到最近出现了一些“虚拟现实就绪”相机，它们从一对相距约为两眼距离的相机捕捉立体图像和视频。
在立体相机普及的推动下，本文探讨了如何从这样的窄基线图像对中合成新的图像。虽然许多以前的工作已经探讨了在给定视图集之间进行插值的问题,我们关注的问题是在两个输入图像之外的视图外差值。这种视图外差值在摄影中有许多应用。例如,我们可能希望窄基线(∼1厘米)立体手机和外插一个IPD-分离(∼6.3厘米)立体模型,以创建一个3d立体效果的照片。或者，我们可以用一台VR180摄像机捕捉到的IPD-分离的立体对并外插到沿半米长的直线上的整个视图集，从而使整个视差具有较小的头部运动范围。我们把这种从一对输入视图中进行的视图外差值称为立体放大。上面的例子将基线显著放大到原始基线的8倍。
立体放大问题具有挑战性。我们只有两个视图作为输入，与考虑多个视图的常见视图外差值场景不同。我们希望能够处理具有挑战性的场景反射和透明度。最后，我们需要渲染被遮挡因而在两个输入视图中都不可见的像素的能力。为了解决这些挑战，我们的方法是学习从大量可视化数据中进行视图推断，根据最近的工作，深入学习视图外差值。然而，我们的方法与以前的工作在关键方面有所不同。首先，我们寻找一个场景表示，可以预测一次从一对输入视图，然后重用来预测许多输出视图，不像在以前的工作中，每个输出视图必须单独预测。其次，我们需要一种能够有效捕获隐藏在一个或两个输入视图中表面的表示法。我们提出了一种称为多平面图像(MPI)的分层表示，它具有上述两种属性。最后，我们需要与我们的任务相匹配的训练数据。仅仅收集立体声对是不够的，因为为了进行训练，我们还需要额外的视图，这些视图与输入立体对之间有一定距离，作为我们的地面实况。我们提出了一个简单的、令人惊讶的数据在线视频来源，例如YouTube，并表明大量合适的数据可以为我们的任务大规模挖掘。
在实验中，我们比较了我们的方法与最近的视图合成方法，并进行了一些消融研究。结果表明，该方法在一个外置的测试集上取得了较好的数值性能，并且由于所推导出的场景表示被用于合成所有目标视图，因此该方法能产生更稳定的空间输出图像。我们也证明，我们的学习模型不需要再训练就可以推广到其他数据集，并且可以有效地放大手机和立体相机捕捉到的立体图像的窄基线。
简而言之，我们的贡献包括:
1 一种立体放大的学习框架(从窄基线立体图像的视图外差值)。
2 多平面图像，一个新的场景表示执行视图合成。
3 一种新的利用在线视频学习视图合成，特别是视图外差值的方法。
二、方法
给定已知相机参数的两幅图像I1和I2，我们的目标是学习一个深度神经网络，推断出一个适合于合成同一场景的新视图的全局场景表示，特别是在输入视图之外进行推断。在这一节中，我们首先描述了我们的场景表示及其特征，然后给出了我们学习预测这种表示的管道和目标。注意，虽然我们在本文中主要关注立体输入，但我们的方法可以适用于具有单个或多个输入视图的更一般的视图合成设置。

KassadinSw

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
Stereo Magnification: 使用多平面图像学习视图合成-论文翻译

简介过去十年，摄影经历了一场巨变。手机摄像头逐渐取代了傻瓜相机，并且开始与数码单反产生竞争。这一变化是由不断提高的手机相机图像质量所推动的，这不仅仅得益于更好的硬件，还得益于像高动态范围光照和合成散焦这样的图形摄影功能。最近的许多创新都视图复制传统相机的功能。然而，手机上新型传感器的飞速发展，如多镜头和深度传感器，使其应用超越了传统摄影。特别的是，双摄手机越来越普遍。虽然立体相机的历史和摄影差...
复制链接

扫一扫

专栏目录