论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018

最新推荐文章于 2023-09-12 17:11:15 发布

qq_22565865

最新推荐文章于 2023-09-12 17:11:15 发布

阅读量382

点赞数

分类专栏： 3D图片缩略图生成or重构文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_22565865/article/details/108055610

版权

3D图片缩略图生成or重构专栏收录该内容

7 篇文章 1 订阅

订阅专栏

论文阅读笔记：美学引导的带有深度适应的立体3D图像重构

I.介绍
II.相关工作
III.立体图像美学
IV.提出的立体重构方法

I.介绍

提出的方法旨在通过以下方面提高立体图像的美学质量：

（1）基于选择的摄影构图规则，同时改变左右立体图像的构图
（2）适应图像的深度以提高深度感知

我们根据四种选择的构图规则，即主体主导原则、三分法则、视觉平衡和物体大小，提出一组审美质量误差。

此外，我们的方法还增强了在舒适深度范围内的调整了尺寸的物体的深度感知，同时最小化立体图像对的垂直偏差，以提高三维视觉效果。

II.相关工作

A.单目（2D）图像处理

在这一小节中，我们将讨论最新的美学驱动图像重组、图像分割和图像抠图方法。

1）美学驱动的重构（Recomposition）

最新的重构方法可以分为
$Recomposition\left\{\begin{matrix} cropping & \left\{\begin{matrix} gaze-based[8] & \\ template-based[9] & \\ rule-based[10] & \\ exemplar-based[11] & \\ learning-based[12]-[14] & \end{matrix}\right.\\ & \\ discrete & \left\{\begin{matrix} cut-and-paste-based[15] & \\ Dependence-aware[16] & \\ exemplar-based-cut-and-paste [17]& \\ Seam-carving-based [18][19] & \end{matrix}\right.\\ & \\ continuous (warping)& \left\{\begin{matrix} non-homogeneous-warping[20] & \\ exemplar-based warping [21]]& \\ \end{matrix}\right.\\ & \\ hybrid & \left\{\begin{matrix} crop-and-retarget [22] & \\ crop-and-warping[23] & \\ tearable-image-warping[6] & \\ \end{matrix}\right. \end{matrix}\right.$
由于其简单和无失真的性质，裁剪是一种流行的方法，强调裁剪图像的吸引力。虽然基于裁剪的方法产生了一些有希望的结果，特别是具有足够的无趣背景的图像，但是在单个或多个对象占据图像很大一部分的情况下，信息的丢失是不可避免的。

离散方法重新排列图像块（像素或一组像素）以获得重组图像。由于其不连续性，对于复杂图像，特别是具有重要几何特征的图像，不可避免地会出现明显的特征伪影。

图像扭曲是一种流行的连续方法，它可以根据一组规则和约束对给定的图像进行重新组合。值得注意的是，由于过度压缩，在极端的对象重定位情况下，显著的特征失真是不可避免的。

混合方法[6]、[22]、[23]利用多个图像操作符的优点来执行图像重组。前两种方法都可能由于涉及到裁剪操作而导致信息丢失。可撕裂图像扭曲[6]将剪切粘贴[15]和非齐次扭曲算子统一起来，在保持场景一致性的同时，允许空间前景-背景关系的变化。

关于Seam carving中的Seam：接缝是图像中从上到下或从左到右或从上到下互连像素的最不重要的路径，反之亦然。

2)图像分割与抠图（Segment and Matting）

图像分割是通过将具有相似属性的像素分组，将数字图像细分为多个部分的过程。由于图像分割简化了图像的表示并使其更易于分析，因此它成为许多成像问题（包括图像编辑）的重要预处理工具。最近，人们提出了一个支持分布式相干对象提取的交互式对象分割框架[31]。

图像抠图是图像编辑中的另一个重要任务。在重构/重定位的上下文中，它可以将cut-off前景与背景层无缝地结合起来。最近，有人提出了一种透明复杂物体（如足迹）的图像抠图算法[34]。

B.立体3D图像处理

在这一小节中，我们将简要讨论最新的立体图像重定目标、深度/视差编辑和重定位方法。

1）立体图像重定向（Retargeting）

立体显示设备（例如，移动电话、3D监视器/3DTV）的可用性需要一种解决方案，该解决方案能够调整给定立体图像的大小以适合目标显示设备，同时最小化重要内容和立体特性（例如视差）的失真。

Zhang等人[35]提出了一种立体裁剪方法，可以避免立体冲突。然而，这种方法容易丢失图像信息。
另一方面，Basha等人[36]（SSC）将接缝雕刻重定目标方法[37]扩展到立体域以执行几何一致性立体图像重定目标。由于这些方法的离散性，明显的特征和几何畸变是不可避免的。

内容感知立体扭曲（SW ARP）[2]，[38]旨在通过保留两种立体特性来避免重定位结果中的复视（双目）：

(1)垂直对齐
(2)视差一致性

另一方面，[39]提出了一种基于扭曲的方法，可以保持重定目标图像中突出物体的三维结构。以上两种方法都可能无法保护重要对象。

对象一致性扭曲[40]使用了额外的形状保持约束来保护突出对象的形状。基于翘曲的方法[41]通过直接控制网格函数来保持突出对象的形状和场景的深度。由于其连续性，这些方法仍然会受到结构元素的扭曲，特别是在极端重定目标的情况下。

一种混合方法，即场景扭曲[42]根据深度顺序将给定的立体图像分解为若干层，每个层根据其自身的网格变形进行扭曲。最后，根据深度顺序将变形层合成在一起，得到重定位图像。尽管场景扭曲确保了对象保护，但它可能无法保证前景对象和其直接背景之间的语义连接（例如阴影）。

为了解决这一局限性，立体可撕裂翘曲（STW）[43]支持使用对象句柄（在优化之前定义）来保持语义连接。值得注意的是，上述方法都没有试图增强重定目标图像的美观性。

2)立体图像重构（Recompositon）

例如，一张不美观的立体图像（比如：由于构图不好或深度感低）可以通过一个立体图像重构工具来改善。3D复制粘贴[1]是一种端到端的广告牌系统，它将前景对象从源立体图像分割出来，粘贴到目标立体图像上，同时保持立体特性。该方法需要两组立体图像，且不保证分割后的目标与目标背景场景之间的语义连通性。

另一方面，立体粘贴[3]不需要输入立体图像对。这种方法允许从传统的2D图像中提取前景对象并粘贴到立体目标图像上。这些交互式立体图像编辑工具的使用是不简单的，并且对于没有经验的用户来说可能不是理想的。

[4]:Y . Niu, F. Liu, W. C. Feng, and H. Jin, “Aesthetics-based stereoscopic photo cropping for heterogeneous displays,” IEEE Trans. Multimedia,vol. 14, no. 3, pp. 783–796, Jun. 2012.
[5]:M. B. Islam, W. Lai-Kuan, W. Chee-Onn, and K.-L. Low, “Stereoscopic image warping for enhancing composition aesthetics,” in Proc. 3rd IAPR Asian Conf. Pattern Recognit., 2015, pp. 645–649.

据我们所知，ASCR[4]和ASW ARP[5]是唯一可用的自动方法，可以在重新组合和重定目标的图像中增强图像的美感。ASCR可能会遭受信息丢失的影响，深度感知可能会被严重剪切的图像所扭曲。此外，由于涉及的下采样，缩放伪影也可能是可见的。与ASCR不同，ASW ARP没有信息丢失。然而，基于翘曲的方法不能有效地保护前景对象，并且在大规模翘曲时会导致明显的背景特征失真。以上两种方法都不支持改变主题背景关系以使照片主题占主导地位。此外，这些方法在优化过程中没有考虑前景对象的大小和深度自适应。综上所述，现有的方法都没有将空间图像合成与深度自适应相结合来执行更全面的立体3D图像重组。

3)视差/深度调整（disparity/depth adjustment）

向前迈进了一步，开发了一些交互式/自动立体图像编辑工具来修改深度/视差以增强三维观看体验。

Chang等人[2] 允许用户更改给定图像的用户指定区域（例如显著物体）的视差。
针对立体媒体的非线性视差映射[44]-[46]也被提出，而Lang et al.[44]根据每个视频帧中的显著性和内容，提出了一个使用四个视差映射算子（线性、非线性、梯度和时间）进行立体3D视频重定目标和视差编辑的概念框架。对于视差较大的立体图像，该方法可能会因大变形而破坏内容。

为了解决对具有大视差的图像的这一限制，移位映射[45]方法支持在重定立体图像目标的同时对视差进行非线性调整。另一方面，[46]提出了一种用户辅助的重映射方法，通过改变相机轴方向上的深度来强调/消除场景中的对象。此外，基于翘曲的[47]线性深度重映射方法改变了小型立体显示设备（例如移动设备）的深度感知范围。最近，Wang et al[48]提出了一种基于四种视觉不适度量（视差范围、运动、窗口破坏和时间平滑度）的基于每帧优化的立体视频视差调整方法。值得注意的是，上述方法支持视差和/或深度感知范围的线性或非线性变化，而不试图通过空间重组来增强美学元素。

[2] C. H. Chang, C. K. Liang, and Y . Y . Chuang, “Content-aware display adaptation and interactive editing for stereoscopic images,” IEEE Trans. Multimedia, vol. 13, no. 4, pp. 589–601, Aug. 2011.
[44] M. Lang et al., “Nonlinear disparity mapping for stereoscopic 3D,” in ACM Trans. Graph., vol. 29, no. 4, 2010, Art. no. 75.
[45] S. Qi and J. Ho, “Shift-map based stereo image retargeting with disparity adjustment,” in Proc. 11th Asian Conf. Comput. Vis., 2013, pp. 457–469.
[46] H. E. Tasli and A. A. Alatan, “User assisted disparity remapping for stereo images,”Signal Process., Image Commun., vol. 28, no. 10, pp. 1374–1389, 2013.
[47] T. Y an, R. W. Lau, Y . Xu, and L. Huang, “Depth mapping for stereoscopic videos,” Int. J. Comput. Vis., vol. 102, no. 1–3, pp. 293–307, 2013.
[48] M. Wang, X.-J. Zhang, J.-B. Liang, S.-H. Zhang, and R. R. Martin, “Comfort-driven disparity adjustment for stereoscopic video,” Comput.Vis. Media, vol. 2, no. 1, pp. 3–17, 2016.

III.立体图像美学

在这项工作中，我们的目的是在一组精选的摄影构图规则的基础上，提高重新组合和重定目标立体影像的美感。

此外，我们尝试通过深度自适应来调整深度感知，同时确保最终深度落在舒适深度范围内。

在下面的小节中，我们将概述选定的摄影构图规则和深度适应过程。

A.摄影构图规则

1）主体主导性（SD）

专业摄影师保持感兴趣区域（ROI）的背景尽可能简单，以获得美观的照片。他们尽量避免背景与照片主题合并。

在这里插入图片描述
受单目视觉优势扭曲的启发[49]，我们测量了左右立体图像的两个低层次图像特征的中心环绕（中心：照片对象，环绕：背景）差异，即左右立体图像的强度和颜色。如图1（d）所示，改变被摄体和背景层之间的空间关系以使照片对象占主导地位。

2）三分法则（RTs）

这条规则是从斐波那契数列导出的黄金比率的简化版本

斐波纳契数列（F=0,1,1,2,3,5,8,13，…）是一系列数字，根据前面两个数字 $X_n=X_{n−1}+X_{n−2}$ 计算。两个连续数的黄金比非常接近常数1.618。

在这里插入图片描述
按照这个规则，图像框被两条垂直线和两条水平线分成9个部分，这两条线创建了四个交点，即能量点（power point）。

我们鼓励摄影师把突出的物体放在这些能量点周围。图像中的强垂直线和水平线应该与这两条水平线和/或两条垂直线对齐。图1（b）示出了不遵守三分合成规则的图像。ROI（植物）不靠近任何能量点。图1（e）示出了重新组合的图像，其中ROI被放置在右能量点上。

3）视觉平衡（VB）

视觉平衡是创造图像和谐的重要组成部分。在这个规则中，所有突出物体的视觉质量中心都应该靠近图像中心。图1（c）示出具有两个突出对象（两个男人）的立体左图像。基于面积/大小，这些对象的视觉质量中心（表示为“+”）不位于图像中心（表示为“+”）。根据视觉平衡构图法则，应尽量缩小“+”与“+”之间的距离，以提高图像的美感。按照视觉平衡规则重新组合后，视觉质量中心接近图像中心，如图1（f）所示。
在这里插入图片描述

4）物体尺寸（SZ）

图像中前景对象的大小可以极大地改变观看者的注意力。根据进行的实验[22]，200张专业照片中的ROI的大小在图像框中是非均匀分布的，如图2所示。这项研究表明，主要照片对象的美观尺寸分布在一组标准化大小（红点）周围，S=[0.1，0.56，0.82]。图1（e）说明了我们的方法的重新配置结果，其中突出的对象，植物的大小调整到接近美观的标准化大小0.1。
在这里插入图片描述

B.深度适应（Depth Adaptation）

由于人眼水平间隔约6.5厘米（成人），我们看到同一场景的左右两幅图像略有不同。这两个图像在我们的大脑中融合以感知深度信息。关于立体显示技术，像素视差是指左右立体图像中对应的点/特征之间的距离。

另一方面，假设观看者聚焦在具有收敛角 $\theta$ 的显示屏上，则具有收敛角 $\theta'$ 的三维点处的角视差被测量为收敛角的差 $θ - θ^{'}$ 。

当3D点/物体在屏幕后面时，像素视差和角度视差都是正的，当3D点/物体在屏幕前面时，像素视差和角度视差都是负的[48]。

为了确保立体视觉中的视觉舒适性，并尽量减少调节收敛冲突，建议将图像内容置于舒适的深度区域内。舒适区通常被认为是角视差±1°的范围。通常，显示设备后面的舒适深度范围几乎比显示设备前面的舒适深度范围宽两倍[50]。图3示出了双目视觉系统的立体舒适深度范围。蝙蝠侠是一个双目物体，双眼都能感知到，房子和树是每只眼睛里的单目物体。这些单目物体在立体视觉系统中无法感知，也可能导致眼睛疲劳和不舒服的3D观看体验。值得注意的是，观看者位置和显示设备D之间的距离可以根据不同的显示设备（例如支持立体声的移动设备、3DTV）而变化。
在这里插入图片描述
最先进的立体图像重构方法[4]、[5]保留了视差，以获得与原始方法类似的3D观看体验。前景物体的大小和最佳位置的改变可能足以增强二维图像的美感，但不能增强三维体验。我们假设通过改变深度感知范围在舒适深度范围内，可以进一步提高立体图像的美学体验。

此外，当我们调整前景对象的大小以增强立体图像的美感时，需要调整这个被调整对象的深度以将其与大小的变化相关联。否则，调整大小的对象的形状可能会被破坏[39]。

图4示出了3D环境中的对象形状和视差之间的关系。物体的原始形状是显示设备前面的球体（红色条表示负视差）。理想情况下，在重新组合的立体图像中，调整大小的对象的形状应保持为球体。然而，如图4（b）和（c）所示，如果在调整大小的过程中保留视差，则大小调整对象（球体）的形状被破坏。为了保持已调整大小的对象的形状，需要深度自适应。图4（d）示出了通过将对象移动到更靠近观看者的位置来保持调整大小的对象的形状。

在这里插入图片描述
另一方面，如图4（e）所示，还可以通过改变视差（绿色条指示正视差）来保持形状，例如将调整大小的对象移动到离观看者更远的地方（在显示设备后面）。然而，这种深度上的巨大变化可能是不利的，并且通过改变从左到右的图像而产生伪视误差。

IV.提出的立体重构方法

我们的方法受到可撕裂图像扭曲[6]的启发，这是一种能够保持单目图像场景一致性的图像操作符。在可撕裂图像扭曲中，前景对象的边界可以分为可撕裂段和不可撕裂段。可撕裂段表示可以从背景中撕下的对象边界段。另一方面，不可撕裂段表示前景对象与其背景环境之间的物理连接，而这些连接必须保留在重组图像中。对象句柄用于表示不可撕裂的段，用户只需单击几下即可指定该段。

[6] L.-K. Wong and K.-L. Low, “Tearable image warping for extreme image retargeting,” in Proc. 30th Comput. Graph. Int. Conf., 2012, pp. 1–8.

我们的算法分三步执行：
$\Rightarrow② warping \Rightarrow ③image-compositing$
我们的方法的概述如图5所示。在预处理步骤中，我们首先计算给定立体影像对的左右影像之间的视差。然后，从背景层中提取前景物体并自动修复孔洞。然后在修复的背景层上构造三角形网格。在翘曲步骤中，我们提出了一组误差函数，即翘曲、美学和立体质量错误。如第三节所述，美学质量误差是根据选定的摄影构图规则和深度自适应来制定的。然后，我们通过最小化上述误差集，对左右背景图像层进行全局优化。在图像合成步骤中，提取的前景对象将相应地缩放并粘贴回优化的背景层，以与相应的对象控制柄一致。

在这里插入图片描述

A.预处理

我们首先通过==快速立体匹配算法（fast stereo matching[51]）==计算给定的左图 $I_L$ 和右图 $I_R$ 之间的像素视差 $d$ 。

用户只需单击几下鼠标，就可以在左图像中指定对象段和相应的对象句柄，然后使用Grabcut[24]从左立体图像中提取前景对象。

为了方便用户输入，基于视差信息，对象提取和它们各自的句柄被自动传播到右图像。

基于范例的修复[52]用于填充左、右图像中的背景空洞。

值得注意的是，在这个预处理步骤中使用的对象分割和修复方法可以被更先进的方法取代，以提高精度并加快整个过程。

最后，利用Delaunay三角剖分生成三角网格来表示左侧背景图像，而右侧图像中对应的网格则由左侧的视差信息自动生成。

B.翘曲（warping）

翘曲是在立体领域中，将输入网格 $M_L \cup M_R$ 映射到相应的输出网格 $M_L'\cup M_R'$ 的过程，受一系列的约束。

原始网格 $M_L\cup M_R$ 包含了一个顶点集 $V=\{v_1,v_2,...,v_n\}$ 。

使 $T=\{t_1,t_2,...\},B=\{b_1,b_2,...\}和O=\{o_1,o_2,...\}$ 分别代表三角形、边界点和物体。

1）翘曲误差函数（Warping Errors）

翘曲误差[20]包括尺度变换误差和平滑误差。

尺度变换误差

我们的目标是改变前景对象的最佳位置和/或调整图像大小，方法是在 $M_L \cup M_R$ 中，在x和y方向上均匀缩放三角形网格，而不进行任何旋转（以最小化图像失真）。为了实现这一点，我们将比例变换误差最小化，这个误差将尝试将三角形的仿射变换限制为x和y方向上的非均匀缩放的，如术语定义的那样：
$G_t = \begin{pmatrix} s_t^x & 0\\ 0 & s_t^y \end{pmatrix}$
尺度变换误差， $E_w$ 定义为，
$E_w = \sum_{t\in T}A_t||J_t-G_t||_F^2..................(1)$
其中 $A_t$ 是三角形 $t$ 的面积， $||\cdot||_F^2$ 是弗罗贝尼乌斯（Frobenius）准则， $J_t$ 是一个2X2的雅可比行列式（Jacobian）项，这个项将一个三角形映射到它在 $M_L'\cup M_R'$ 中对应的三角形。

有关弗罗贝尼乌斯范数（Frobenius norm）的博客

平滑误差（smoothness errors）

为了避免相邻两个三角形之间的不连续性，我们通过减小尺度差来约束平滑误差。
。
。
。
。
略

2）美学质量误差（Aesthetic Quality Errors:）

我们的方法结合了四个选择的摄影构图规则和深度适应，以最大限度地提高立体图像的美学。这些规则被制定为一组美学质量错误，将在翘曲过程中最小化。

主体主导性误差：

基于Itti-Koch视觉注意模型制定[53]。

三分法则误差：

为了使突出主体的形心与能量点之间的距离最小，我们根据视差是正还是负，通过减去或加上对象质心视差的一半来补偿视差变化。

视觉平衡误差

物体尺寸误差

深度自适应误差

深度知觉受到视差的影响，以及观察者的位置和显示设备之间的距离。

为了获得立体图像的物理域深度，我们通过将视差除以我们的显示设备（ $B e n Q X L 2720 Z 3 D 2 7^{''}$ ，PPI=81）的像素密度（每英寸像素数，即PPI）将视差从像素域更改为物理域。

如果一个特定顶点在 $M_L\cup M_R$ 中的视差 $d = x_L-x_R$ , 在 $M_L'\cup M_R'$ 中的 $d' = x_L'-x_R'$ ,

则目标视差 $d^t = s_z \times d$ [39], 其中 $s_z$ 代表着目标视差的比例因子，它是由物体缩放因子 $s_f$ 获得的。在我们的实验中，设置为 $s_z = s_f$ . 深度适应误差 $E_z$ 定义为：
$E_z = ||(s_z \times d)-d'||......................(8)$
立体图像在物理域中的深度感知（cm，）Z 可以通过以下公式计算：
$\frac{eD}{e-d'}......................................(9)$
其中e和D分别表示两只眼睛之间的瞳距，以及观看者的位置与显示设备之间的距离。我们的实验设E=6.5厘米，D=100厘米。我们重新组合的图像中的深度感知被限制在舒适的深度感知范围内，推荐为角视差的±1°。基于这一原理，舒适深度感知范围， $\theta=2tan^{-1}(\frac{e}{2D})$