Unsupervised Stereoscopic Image Retargeting via View Synthesis and Stereo Cycle Consistency Losses

摘要

作者提出了一个无监督立体图像重定向网络(USIR-Net), 从而在没有标签信息的情况下解决立体图像重定向的问题。

  • 通过探索视图间的相关性立体图像的视差关系,提出了两个无监督损失来引导立体图像重定向的学习
  • 首先,考虑到视点间的相关性,提出了视点合成损失,以保证生成具有精确视点间关系的高质量立体图像。
  • 第二,通过利用重定目标前后立体图像的一致性,提出了由内容一致性项视差一致性项组成的立体循环一致性损失,以保持结构信息并防止双眼视差不一致。

1.介绍

基于深度学习的立体图像重定向方法的核心问题是,目标立体图像是未知的,这就意味着真实值是无法得到的。

受无监督学习技术发展的启发,本文提出了一种通过视图合成立体循环一致性损失的无监督立体图像重定向方法。

其中的视图合成损失旨在描述左右视图之间的视图间相关性,
而立体循环一致性损失的设计用意在于保持立体图像的整体构图,并且提升3D视觉体验。

主要贡献可归纳如下:

  • 通过探索立体图像的视点间相关性和视差关系,提出了一种无监督立体图像重定向网络(USIR网络)。据我们所知,这是第一次尝试以无监督的深度学习方式解决立体图像重定向的问题
  • 受立体图像的视点间相关性的启发,视点合成损失被设计成保证生成具有精确视点间关系的高质量目标立体图像。
  • 立体循环一致性损失被开发以保持原始形状和深度感知,其中内容一致性项被用来防止显著区域的几何结构失真,并且视差一致性项被执行70以保持深度感知。
  • 大量实验结果表明,与其他立体图像重定向方法相比,该方法取得了最先进的性能。

2.相关工作

在这一部分中,我们

  • 首先简要回顾了2D图像重定向方法的相关研究。
  • 然后,我们总结了应用于立体图像的典型重定向架构。

2.1 2D图像重定向

大致分为离散方法和连续方法。

以及基于深度学习的方法。

2.2 立体图像重定向

与传统方法不同,我们在这个工作中研究深度学习是如何有利于解决立体图像重定向问题的。

3.提出的方法

3.1 USIR-Net的结构

USIR-Net模型的总体结构如图1所示,
在这里插入图片描述
该模型由三部分组成:一个多级注意生成模型,一个视图合成损失和一个立体循环一致损失

给定一个立体图像,我们的目的就是要同时对左右视图进行重定向,因此模型包括了左右视图流。

在每一流中,多级注意生成模型首先被采用,用于提取高级特征,从而获得显著性区域的细节理解。

然后,注意力图被馈送到移位层,以实现深度特征空间中的图像重定向。

最后,设计了无监督视图合成损失和立体循环一致性损失,以保证立体图像的几何结构和深度信息。

多级注意力生成模块主要由基本特征提取网络和多个注意力模块组成。
基本特征提取网络在编码器-解码器结构中工作,以获得卷积层中的多级特征,并通过多个卷积层恢复空间信息。

最后,来自多级层的代表性注意力信息被合并到,以生成最终的注意力图。

为了提供令人满意的观看体验,立体图像重定向需要保留重要内容的原始几何结构和3D场景的深度。

本质上,由于没有目标立体图像的真实数据,我们采用深度无监督的措施来促进网络训练并使其更好地收敛。

所提出的两个损失函数,称为视图合成损失和立体循环一致性损失,被合并以评估目标立体图像。

3.2 视图合成损失

作为杰出的立体技术之一,视图合成由于其在任意视点呈现虚拟视点的能力而被成功地用于提升立体视觉体验[49]。

[49]: J. Lei, C. Zhang, Y . Fang, Z. Gu, N. Ling, C. Hou, Depth sensation enhancement for multiple virtual view rendering, IEEE Transactions on Multimedia 17 (4)495(2015) 457–469.

我们开发视图合成损失的动机取决于视图合成技术。

通过利用基于图像翘曲的视图合成,立体图像中的参考图像与其对应的视差图相结合,生成另一合成目标图像。

具体而言,立体图像中的原始右图像被假设为参考图像,并利用其对应的视差图进行翘曲以获得合成左图像。合成的左图像应该尽可能紧密地遵循立体图像中原始左图像的相同内容和深度信息。简而言之,所提出的视图合成损失旨在描述左右图像之间的视图间相关性,并监督目标立体图像的视图间关系。

给定立体图像,可以通过测量左右图像之间像素的相对水平位移来获得像素视差。

在本文中,针对目标左图像中的一个像素坐标 ( u , v ) (u, v) (u,v), 视差 D t ( u , v ) D_t(u, v) Dt(u,v) 是通过GA-Net[50]网络寻找右图像中对应的像素坐标来估计。

[50] F. Zhang, V . Prisacariu, R. Y ang, P . H. S. Torr, Ga-net: Guided aggregation net for end-to-end stereo matching, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 185–194.

对于目标立体图像,利用估计的视差图从目标右图像进行翘曲合成的目标左图像应该接近目标左图像。

假设 I t L ( u , v ) I_t^L(u,v) ItL(u,v) 表示目标左图像的像素, I t R ( u , v ) I_t^R(u, v) ItR(u,v) 表示目标右图像的像素,则由图像翘曲获得的一个合成左图像 I t L W ( u , v ) I_t^{LW}(u, v) ItLW(u,v) , 耶可表示为:
I t R ( u + D t ( u , v ) , v ) I_t^R(u+D_t(u, v), v) ItR(u+Dt(u,v),v)
【即目标左图像是由原始右图像加上视差图中的视差值得到的】
则视觉合成损失 L V L L_{VL} LVL可以定义为:
L V L = ∑ u = 1 H ′ ∑ v = 1 W ′ ∣ ∣ I t L ( u , v ) − I t L W ( u , v ) ∣ ∣ . . . . . . . . . . . . ( 1 ) L_{VL} = \sum_{u=1}^{H'}\sum_{v=1}^{W'}||I_t^L(u, v)-I_t^{LW}(u, v)||............(1) LVL=u=1Hv=1WItL(u,v)ItLW(u,v)............(1)
= ∑ u = 1 H ′ ∑ v = 1 W ′ ∣ ∣ I t L ( u , v ) − I t R ( u + D t ( u , v ) , v ) ∣ ∣ =\sum_{u=1}^{H'}\sum_{v=1}^{W'}||I_t^L(u, v)-I_t^R(u+D_t(u, v), v)|| =u=1Hv=1WItL(u,v)ItR(u+Dt(u,v),v)
其中 H ′ H' H W ′ W' W 是目标图像的高度和宽度。

3.3 立体循环一致性损失

立体图像重定向的目标是保持视觉显著对象的原始形状,同时最小化视觉失真。保持输入和输出立体图像之间的深度感知也是至关重要的。

立体循环一致性损失由内容一致性项和差异一致性项组成,其中内容一致性项用于保持显著区域的几何形状,视差一致性项用于保持深度感知并防止双眼视差不一致。立体循环一致性损失 L S L L_{SL} LSL定义为:
L S L = L C L + κ L D L . . . . . . . . . . . . . . . . . . . . . . ( 2 ) L_{SL} = L_{CL}+\kappa L_{DL}......................(2) LSL=LCL+κLDL......................(2)
其中 L C L L_{CL} LCL 是内容一致性项, L D L L_{DL} LDL是视差一致性项,并且 κ \kappa κ 是形状一致性和深度一致性之间的权重。

1)内容一致性项:几何结构失真是一个影响立体图像重定向的图像质量的重要因素,忽略显著对象变形的一致性可能导致明显的变形。为了保留视觉上显著的内容,在我们的方案中包括内容一致性项来评估重建图像和原始图像之间的相似性。我们的目标是:当修改原始立体图像的纵横比时,重建的立体图像应该类似于原始的对应图像。对于这一项,结构相似性(SSIM)指标测量和一个L1范数合并为内容一致性指标,这一指标在于比较原始图像和它的重构图像,因此内容一致性损失项定义为:
L C L = ∑ u = 1 H ∑ v = 1 W L C L L ( u , v ) + ∑ u = 1 H ∑ v = 1 W L C L R ( u , v ) . . . . . . . . . . . . ( 3 ) L_{CL}=\sum^H_{u=1}\sum^W_{v=1}L^L_{CL}(u,v) + \sum^H_{u=1}\sum^W_{v=1}L^R_{CL}(u,v)............(3) LCL=u=1Hv=1WLCLL(u,v)+u=1Hv=1WLCLR(u,v)............(3)
其中,
L C L L ( u , v ) = η 1 − S ( I r L ( u , v ) , I o L ( u , v ) 2 + ( 1 − η ) ∣ ∣ I r L ( u , v ) − I o L ( u , v ) ∣ ∣ . . . . . . . ( 4 ) L^L_{CL}(u,v) = \eta \frac{1-S(I^L_r(u,v),I_o^L(u,v)}{2}+(1-\eta)||I^L_r(u, v)-I_o^L(u,v)||.......(4) LCLL(u,v)=η21S(IrL(u,v),IoL(u,v)+(1η)IrL(u,v)IoL(u,v).......(4)
L C L R ( u , v ) = η 1 − S ( I r R ( u , v ) , I o R ( u , v ) 2 + ( 1 − η ) ∣ ∣ I r R ( u , v ) − I o R ( u , v ) ∣ ∣ . . . . . . . ( 4 ) L^R_{CL}(u,v) = \eta \frac{1-S(I^R_r(u,v),I_o^R(u,v)}{2}+(1-\eta)||I^R_r(u, v)-I_o^R(u,v)||.......(4) LCLR(u,v)=η21S(IrR(u,v),IoR(u,v)+(1η)IrR(u,v)IoR(u,v).......(4)

SSIM,结构相似性的范围为-1到1。当两张图像一模一样时,SSIM的值等于1。

其中 I o L I_o^L IoL I o R I_o^R IoR 是原始左右图, I r L I_r^L IrL I r R I_r^R IrR 是重构左右图,其中,重构图是通过将目标图像重新输入提出的USIR-Net得到的, S ( . , . ) S(.,.) S(.,.) 表示结构相似性指标测量,其中 η \eta η 是权重因子。

(2)视差一致性指标:众所周知,立体图像的视差关系反映着3D场景中的感知深度信息, 并且不一致的视差可能会导致不一致的深度感知。

为了保持立体图像的视差 ,获得与原始立体图像相似的3D视觉体验,一个基于视差线索的视差一致性项在本文被提出。

该项设计的目的是在翘曲后的重建立体图像和原始立体图像之间实施差异约束。该约束使得所提出的方法能够在深度一致性和视差保持方面产生更好的重定向立体图像结果。

具体而言,重建的左图像和右图像之间的视差应该接近于原始左图像和右图像之间的视差。

简单地说,视差一致性项 L D L L_{DL} LDL 是基于不同图像定义的:
L D L = ∑ u = 1 H ∑ v = 1 W ∣ ∣ ∣ I o L ( u , v ) − I o R ( u , v ) ∣ − ∣ I r L ( u , v ) − I r R ( u , v ) ∣ ∣ ∣ . . . . . . ( 5 ) L_{DL} = \sum^H_{u=1}\sum^W_{v=1}|| |I_o^L(u, v)-I_o^R(u, v)|-|I_r^L(u, v)-I_r^R(u, v)|||......(5) LDL=u=1Hv=1WIoL(u,v)IoR(u,v)IrL(u,v)IrR(u,v)......(5)
总的来说,损失函数 L t o t a l L_{total} Ltotal 计算为两个主要损失的合并,
L t o t a l = L S L + α L V L . . . . . . . . . . . . . . . ( 6 ) L_{total} = L_{SL}+\alpha L_{VL}...............(6) Ltotal=LSL+αLVL...............(6)
其中 立体循环一致性损失 L S L L_{SL} LSL 促使重建图像的显著信息和视差关系看起来类似于对应的原始图像, 视图合成损失 L V L L_{VL} LVL 以促进生成具有更精确的视图间关系的高质量目标立体图像,并且 α \alpha α 是权重因子。

3.4 实现细节

多级注意力生成架构中,编码器架构建立在流行的VGG-16 [53]上,以捕获高级特征图,

解码器网络对特征图进行上采样,以保持输入图像的原始分辨率。

具体来说,应用卷积和最大池层,并移除完全连接的层以明确提取特征图。

同时,通过移除最终的最大池层(pool5)来修改网络结构,以保留更多的特征图中的空间信息。

此外,三个CBAM块[54]被插入到基本特征提取网络中,以由粗到细的方式充分地学习显著对象。

[54] S. Woo, J. Park, J. Y . Lee, I. S. Kweon, Cbam: Convolutional block attention module, in: Proceedings of the European Conference on Computer Vision(ECCV), 2018, pp. 1–17.

特别是,从conv 3-3、conv 4-3和conv 5-3生成的三个特征图与CBAM区块整合在一起。

随后,用多个反卷积层对三个注意力图进行上采样,以将注意力图恢复到原始空间维度。

最后,将三个注意力图融合在一起,生成最终的注意力图。

该实验是在 NVIDIA GeForce GTX 1080Ti GPU和Intel i7-8700K处理器@3.70GHz 的处理环境下进行的。

网络参数的训练和更新的相关设置:采用ADAM优化器[55],初始学习率为 1 × 1 0 − 5 1\times 10^{-5} 1×105.

batch size 设为 4 ,momentum设为 0.9。经过优化,损失函数的权重 κ \kappa κ α \alpha α, 都被设置为 0.5, η \eta η 设置为 0.8。

4.实验

4.1. 实验设置

1)数据集:

为了训练提出的深度立体重定向模型,包括了800张立体图像的 IEEESA立体图像数据集被采用。

为了推拟,我们在Middlebury数据集和NBU-VCA数据集中选择了10张测试立体图像。

由于这些图像包含丰富的内容以及不同的深度范围,所以具有挑战性。

在训练过程中, 输入长宽比 ξ \xi ξ 在范围 ( H / 4 ∼ H / 2 ) × ( W / 4 ∼ W / 2 ) (H/4\sim H/2)\times(W/4\sim W/2) (H/4H/2)×(W/4W/2) 中随机的选择。

不失一般性地,在实验中测试数据都在水平方向上进行重定向。

2)评估指标

对于定量评估,采用了两个重要的评估指标,包括深度失真平均梯度

深度失真计算目标立体图像与其原始值之间的视差差。

首先,为了公平比较,目标立体图像的视差图 D t ( u , v ) D_t(u, v) Dt(u,v) 通过立体匹配算法[60]生成。

[60]:H. Hirschmller, Stereo processing by semi-global matching and mutual information, IEEE Transactions on Pattern Analysis and Machine Intelligence 30 (2)(2008) 328–341.

同时,通过利用左图作为参考图像,并以与参考图像相同的方式调整原始视差图的大小,来生成原始立体图像的重定向视差图 D o ( u , v ) D_o(u, v) Do(u,v)

最后,通过计算 D t ( u , v ) D_t(u,v) Dt(u,v) D o ( u , v ) D_o(u, v) Do(u,v) 之间的绝对差异来得到深度失真。

深度失真分数 D D S DDS DDS 被表示为深度值差异大于1的像素的数量, 计算为:
D D S = 1 Q ∑ u , v ( ∣ D o ( u , v ) − D t ( u , v ) ∣ > 1 ) . . . . . . . . . . . . . . . . . . . ( 7 ) DDS = \frac{1}{Q}\sum_{u,v}(|D_o(u, v)-D_t(u,v)|>1)...................(7) DDS=Q1u,v(Do(u,v)Dt(u,v)>1)...................(7)
其中 Q Q Q 代表着总像素数量, D o ( u , v ) D_o(u, v) Do(u,v) 原始立体图像的重定向视差图,
D t ( u , v ) D_t(u, v) Dt(u,v) 是目标立体图像的视差图。

与以前的工作一样,平均梯度(AG) [61]也用于评估图像是否平滑和没有伪影。

{61]: X. Fan, J. Lei, Y . Fang, Q. Huang, L. Nam, C. Hou, Stereoscopic image stitching via disparity-constrained warping and blending, IEEE Transactions on Multimedia 22 (3) (2020) 655–665.

更高的AG分数表示更好的重定向立体图像。

平均梯度分数 AG计算为:
A G = 1 H ′ W ′ ∑ u = 1 H ′ ∑ v = 1 W ′ 1 2 [ ( ∂ U ( u , v ) ∂ x ) 2 + ( ∂ U ( u , v ) ∂ y ) 2 ] . . . . . . . . . . . . . . . . . . ( 8 ) AG=\frac{1}{H'W'}\sum^{H'}_{u=1}\sum^{W'}_{v=1}\sqrt{\frac{1}{2}[(\frac{\partial U(u, v)}{\partial x})^2+(\frac{\partial U(u, v)}{\partial y})^2]}..................(8) AG=HW1u=1Hv=1W21[(xU(u,v))2+(yU(u,v))2] ..................(8)

其中 U ( u , v ) U(u, v) U(u,v) 是重定向立体图像中的 ( u , v ) (u, v) (u,v) 的灰度值。

4.2 与其他方法的比较

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值