Depth-Aware Stereo Video Retargeting

最新推荐文章于 2022-03-06 13:29:14 发布

Xing_yb

最新推荐文章于 2022-03-06 13:29:14 发布

阅读量767

点赞数

分类专栏：论文阅读文章标签： 3D 视频 resize 3D 显示重定向

本文链接：https://blog.csdn.net/Xingyb14/article/details/84199374

版权

深度感知的立体视频重定向

原文：Bing Li 等. CVPR 2018

文章目录

深度感知的立体视频重定向

摘要

与传统视频重定向相比，立体视频重定向面临着新的挑战，因为立体视频包含突出物体的深度信息，并且还随物体的运动而改变。本文提出了一个深度感知的立体视频重定向方法，是通过添加深度保真约束实现的。本方法通过重建 3D 场景获得显著物体的深度信息。我们把它考虑为一个约束优化问题，它的总损失函数包括显著物体的形状，时序性和深度畸变。因此，本方法可以同时保证上述三方面的保真度。实验证明深度感知的重定向方法达到了更高的重定向质量，提供了更好的用户体验。

1 引言

3D 视频内容和显示技术日趋成熟，它们能为用户提供真实世界的视觉体验。顺应趋势发展，许多公司正在制造不同尺寸的 3D 显示设备以适应不同的应用场景包括剧场，电视和电脑。此外，虚拟/增强现实设备 (例如 Google Cardboard 和 Oculus Rift) 也用立体视频创造有沉浸感的环境。一个重要的任务是让相同的立体内容自动地适配到不同尺寸不同宽高比的显示设备上，叫做 resizing 技术。

与 2D 视频重定向相比，立体视频重定向面临着新的挑战，因为立体视频包含突出物体的深度信息，并且还随物体的运动而改变。当物体沿着深度方向运动时尤其明显，见图 1，造成很糟糕的 3D 观看体验。通常来讲，影响人 3D 观看体验的有两个关键因素，一个是每一个正确的静态帧的深度信息，另一个是正确的多帧间的深度变化。前者决定了 3D 物体到屏幕的距离，而后者指示了运动方向和速度。为了获得令人满意的 3D 观看体验，我们设计的立体视频重定向方法需要在传统 2D 保留形状和时间相干性的基础上，同时考虑上述两个因素。

需要说明的是，大多数现有的视频重定向方法不包含深度保真约束。例如，resize 立体视频时广泛采用的均匀缩放的方法，分别对立体视频的左右 2D 视频进行上或下采样，显著物体的深度可能发生畸变。图 1 对比了均匀缩放和我们提出的深度感知重定向策略。均匀缩放只缩小了女孩的尺寸，但是没有正确地捕捉到她在深度方向上的运动，感知到的深度变化相对较小。显然，立体视频重定向问题不能用传统 2D 视频重定向方法解决，因为它们不会综合分析左右图，没有保留住显著物体的深度信息，见图 2。

在本文中，我们提出了一种深度感知的立体视频重定向方法，这种方法保留了原始立体视频中的深度信息，实现了高质量的重定向。我们的方法在总损失函数中引入了深度信息及其偏差，又采用了 grid warping 策略来改进优化框架。据我们所知，这是首个考虑深度保留约束的立体视频重定向研究，我们提出的约束简单且应用灵活。一旦检测到了显著物体，算法将会尽可能如实地保留它们的深度信息。这提高了用户观看 3D 重定向视频的体验。实验结果也表明了本方面的优越性能。
图 1
图 1：深度感知重定向方法的优势。 $(a)$ - $(c)$ 的左侧是 $t_1$ 和 $t_2$ 时刻的 3D 场景，右侧是场景中前景物体的时间变化轨迹。 $(b)$ 均匀缩放仅仅缩小了女孩的尺寸但没有正确捕捉到她在深度方向上的运动，感知到的深度变化相对较小。相比之下， $(c)$ 深度感知的重定向方法既保留了女孩的形状又保留了深度信息，感知到的深度变化接近原图 $(a)$ 。
图 2
图 2： $t_1$ 和 $t_2$ 时刻的前景物体 (女孩) 。 $(a)$ 和 $(b)$ 的上图是左视点，下图是右视点。 $(c)$ 中屏幕上的红色和绿色点分别表示女孩在左右 2D 帧中的 $x$ 坐标。基于 $x$ 坐标的差异，我们可以确定女孩的深度，她从 $t_1$ 到 $t_2$ 朝相机方向移动了。然而女孩在左视点 (或右视点) 上水平移动，所以传统的视频重定向算法不能恢复立体视频中的深度变化信息。

2 相关工作

2D 视频重定向 内容感知的重定向方法可以被分为离散的和连续的两类。2D 视频重定向方面有许多离散的方法被提出，基于裁剪的方法从每个 2D 帧中裁剪出一个矩形区域，线裁剪方法反复地移除或添加裁剪线。连续的方法把视频帧划分成像素或区域，根据重要程度图来 warp。离散的方法容易引入肉眼可见的结构性物体的畸变。连续的方法得益于它们连续性 warping 的机理，往往能更好地保留物体的形状。根据时间约束中利用的信息，2D 视频重定向方法可以分为局部方法和全局方法。局部方法缩放时考虑与它相邻的若干帧。全局方法采用整个视频的时间信息，因此得到比局部方法更好的时间上的形状一致性。

立体图像重定向 Basha 等和 Shen 等把线裁剪方法扩展到立体图片重定向上来，通过在立体图片对儿上迭代地移除一对裁剪线。几个连续的方法通过添加额外的深度保留约束，把基于 warp 的 2D 图像重定向方法扩展到立体图像对儿上。这些方法试图通过保持一组稀疏的对应来保留全图的深度。这个想法和深度编辑方法很相似。还有方法提出重映射深度。Li 等人在 grid warping 上添加了有效的深度保留约束，取得更好的深度保留性能。

立体视频重定向 相对于立体图像重定向，关于立体视频的研究少很多。因为形状和深度两方面在时间相干性上的额外要求使得问题更加复杂。Kopf 等把立体视频看成两个独立的 2D 视频，用 2D 视频重定向方法来缩放立体视频。对于立体视频 (尤其当显著物体或者它们的移动占据了一帧的大部分时) ，Lin 等人提出将裁剪和基于网格的 2D 视频重定向相结合。然而，由于上述方法没有明确地考虑 3D 物体是深度信息和时间动力学，它们往往导致严重的深度瑕疵。

3 深度感知的立体视频重定向

3.1 问题公式化

立体视频重定向是将立体视频适配到目标显示尺寸，试图使用户的 3D 观看体验最佳。对于左右视点混合形成的 3D 场景，场景中的 3D 物体有两个关键属性——形状和深度。由于相机运动和物体运动，这两个属性随时间变化。在现有的文献中，内容感知的 2D 视频重定向方法确保形状信息在空间和时间上的保真。就是说，每一帧中 3D 物体的形状都被保留，多帧上的形状也前后一致。然而，随时间变化的深度属性往往被忽略了。现有方法分别保留左右视点的可视内容，与之不同，我们的解决方案尽可能地以原始形式保留形状和深度信息以及它们的时间动力学。

3D 场景中的 3D 物体有不同的深度。当人的双眼注视在一个物体上时，如图 3 中的点 P，视线交叉在这个物体上，两眼的视界也形成了。在这个物体前面或后面的物体都变得模糊。因为在观看立体视频时，人眼视觉系统 (HVS) 一次只注视一个物体，其他物体都模糊了，所以它们的深度可以在一定程度上改变，只要基本不影响观看体验。此外，非显著物体和背景的时域深度变化是受物体和相机的运动影响的，需要在多帧上一致地改变它们的深度，否则常常会导致错误的运动方向 (例如非显著物体出或入屏幕的混乱)。双目视差-聚焦模糊冲突和过长的读取时间也可能导致深度不连续和无法感知深度。受上面提到的 HVS 的特性启发，我们提出了一种深度感知的重定向解决方案，不仅仅保留显著 3D 物体的形状和深度，还可以前后一致地缩放整个 3D 场景。
图 3
图 3：人类视觉系统中聚焦点之外的物体会变得模糊。

为了得到高质量的立体视频重定向算法，我们构建了如下最小化问题：

$min\ E = min(E^S + \lambda^S \cdot E^T + \lambda^D \cdot E^D)\tag{1}$

其中 E 是总畸变， $E^S,\ E^T,\ E^D$ 分别表示空间形状不相干，时域形状不相干和显著物体的 3D 深度信息损失，即形状畸变，时域畸变和深度畸变。 $\lambda^S$ 和 $\lambda^D$ 是权重。深度畸变 $E^D$ 的来源将在 3.2 节中详细阐述， $E^S$ 和 $E^T$ 见 3.3 节。

基于网格的 warping 已经被证明是一个重定向图像和视频的有效手段。它把每一帧划分成网格，将寻找最优重定向了立体视频的问题转化成搜寻最优的变形的网格集合，最小化公式 (1) 中的总畸变 E。对于立体视频，这个寻优过程涉及大量的参数，需要消耗大量的内存和时间。为了降低复杂程度，我们采取轴对齐的 warping 策略，使用网格的宽和高作为参数来控制变形，要求每一列和每一行的网格分别具有相同的宽和高。与以网格顶点为参数的方法相比，参数数量显著减少。我们使用 $w_k^{z,t}$ 和 $h_i^{z,t}$ 分别表示网格的宽和高， $g_k^{z,t}$ 表示原始网格的边长，寻找最优的 $\tilde w_k^{z,t}$ 和 $\tilde h_k^{z,t}$ 使得总畸变最小。
图 4
图 4：稠密 3D 点表示的 3D 物体“熊猫”：(a) $s^{t_1}$ 和 $s^{t_2}$ 两个场景中的 3D 熊猫；(b) 离散成 3D 点的 3D 熊猫，3D 点用黄色圆表示，黄色线表示两个场景中的对应关系；(c)一个 3D 点是由左右图中对应的两个 2D 点表示的，黄色圈表示 2D 点。

3.2 深度畸变

在本节中，我们将重点关注深度畸变 $E^D$ ， $E^S$ 和 $E^T$ 将在第 3.3 节中讨论。深度畸变是用来保持立体视频中的显著物体的深度信息的。独立帧和多帧间的时序性深度保真我们都会考虑。

一个 3D 物体的不同部分可能会在深度上做不同方向的运动。图 4 (a) 展示了一个 3D 熊猫的例子，左右两图分别是 $s^{t_1}$ 和 $s^{t_2}$ 两个场景。很显然仅仅在物体尺度上表现深度变化是不够的。我们需要将物体离散化成一些有代表性的 3D 点，像图 4 (b) 中那样检查它们的深度变化轨迹。对于一个被分解为 N 个点的 3D 物体， $E^D$ 即为 N 个深度变化轨迹的加权和：

$E^D = \sum_i^n{s_i \cdot E_i^D}\tag{2}$

其中 $E^D_i$ 是第 $i$ 个点的深度变化轨迹的畸变， $s_i$ 是相应的权重，用于表示第 $i$ 个深度变化轨迹的重要程度。

最低0.47元/天解锁文章

Xing_yb

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Depth-Aware Stereo Video Retargeting

3.2 深度畸变在本节中，我们将重点关注深度畸变 EDE^DED 的derivation，ESE^SES 和 ETE^TET 将在第 3.3 节中讨论。深度畸变是用来保持立体视频中的显著物体的深度信息的。独立帧和多帧间的时序性深度保真我们都会考虑。一个 3D 物体的不同部分可能会在深度上做不同方向的运动。图 4 (a) 展示了一个 3D 熊猫的例子，左右两图分别是 st1s^{t_1}...
复制链接

扫一扫