论文阅读--Cycle-IR: Deep Cyclic Image Retargeting

最新推荐文章于 2023-04-15 08:31:31 发布

qq_22565865

最新推荐文章于 2023-04-15 08:31:31 发布

阅读量681

点赞数 2

分类专栏：显著性检测应用 2D图片warpping 2D图片裁剪文章标签：计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_22565865/article/details/111318137

版权

显著性检测应用同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

2D图片裁剪

4 篇文章 0 订阅

订阅专栏

2D图片warpping

3 篇文章 0 订阅

订阅专栏

标题：Cycle-IR: Deep Cyclic Image Retargeting
期刊：IEEE TRANSACTIONS ON MULTIMEDIA, VOL. 22, NO. 7, JULY 2020
来自文章《Weakly Supervised Reinforced Multi-operator Image Retargeting》的评价：
Tan等人借鉴CycleGAN 的循环重构思想和注意机制提出了Cycle-IR，但当图像的视觉重要区域过大或过分散或低对比度，或有干扰时，不能很好地处理图像。

摘要

由于摆脱了手工表示的限制，监督深度学习技术在各个领域都取得了巨大的成功。

然而，以往的图像重定向算法大多采用固定的设计原则，如使用梯度图或手工特征计算显著图，这不可避免地限制了其通用性。

深度学习技术可能有助于解决这一问题，但具有挑战性的问题是，我们需要建立一个大规模的图像重定向数据集来训练深度重定向模型。

然而，建立这样的数据集需要巨大的人力资源。本文提出了一种新的深度循环图像重定位方法，叫做Cycle-IR，首先用单个深度模型实现图像重定向，不依赖于任何显式的用户标注。

我们的想法是建立在从重定向图像到给定图像的反向映射之上。如果重定位后的图像失真严重或丢失了过多的重要视觉信息，反向映射就不太可能很好地恢复输入图像。我们通过引入循环感知相干性损失来限制这种正向-反向一致性。

此外，我们提出一种简单而有效的图像重定向网络(IRNet)来实现图像重定向过程。

我们的IRNet包含一个空间和通道注意层，能够有效地识别输入图像的视觉重要区域，尤其是在杂乱图像中。

给定任意大小的输入图像和所需的长宽比，我们的Cycle-IR可以直接产生视觉上令人满意的目标图像。

在标准RetargetMe数据集上的大量实验表明了我们Cycle-IR的优越性。

1.介绍

由于图像重定向任务与其他计算机视觉任务比如图像超分辨率，图像分类，目标检测，物理分割等不同，它属于一个不确定的问题，比如生成理想重定向结果的方式是不确定的（就是说理想的结果是多个的而不是唯一的？）；而对重定向结果最后的评估方式是主观评估。

这些原因使得图像重定向任务与那些目标明确或评价标准客观的任务有很大的不同，很难用深度学习方法来实现。此外，这些原因也给建立包含不同长宽比输入图像和相应目标图像的大规模图像重定位数据集带来了困难。

因此，利用深度学习技术解决图像重定位问题成为一个极具挑战性的问题。

Cho等人¹在2017年尝试了利用深度学习技术来解决图像重定向问题。它们提供了一个弱的、自我监督的深度网络来学习一个移位映射来操纵输入图像的长宽比。为了得到良好的移位映射，他们使用结构相似度和内容一致性这两个损失项对深度网络进行优化。尽管该方法取得了可喜的进展，但它要求输入图像的大小是固定的，这极大地限制了该方法的实用性。

在本研究中，作者提出了一种深度循环图像重定向方法（Cycle-IR)来解决上述问题。

文章的主要思想：
输入图像的大小是否减少或增加, 由一个理想图像重定向模型生成的目标图像应该高度与输入图像的视觉感知相一致,无失真和伪影, 完整的保留重要的视觉信息,等等。因此，如果将重定向后的图像反馈给理想的重定向图像模型作为输入，那么映射回来的图像在视觉感知和结构相似性方面应该与原始输入图像相似。

接下来的问题是：

如何建立前后映射一致性?
如何有效地评估输入图像与映射回来的图像的视觉一致性?

根据以上讨论，本文介绍了一个新奇的Cycle-IR方法。这个方法基于图像重定向特性，能够生成具有不同分辨率的目标图像。为此，我们提出了一种深度图像重定位网络(IRNet)来实现图像重定向过程。

提出方法的概述：

为了形成循环关系，我们设计的IRNet能够同时输出低分辨率和高分辨率的目标图像，不同于传统的重定向方法只能输出单个目标图像。下图就展示了Cycle-IR方法的基本思想,它包括两个阶段的推理过程。
给定输入图像和目标长宽比，第一阶段生成两个不同分辨率的目标图像。
在第二阶段，图像重定向模型(第一阶段共享网络参数)将重定向后的图像作为输入，重建原始输入图像。
具体地说，IRNet将输入图像映射到重定向的图像，然后再将它们映射回去。
为了有效地度量前后向映射相干性，提出了一种循环感知相干损失（Cyclic perception coherence loss）。这种循环相干性损失可以促使IRNet发掘输入图像的视觉重要性，减少目标图像的失真和伪影。另外，这种损失防止训练过程需要任何显式的用户标注。
在IRNet的整个训练过程中，我们只需要未标注的彩色图像和预先训练好的VGG16模型[26]。

验证实验方面

在视觉质量和用户实验方面，对许多有代表性的图像重定向方法进行了比较。
Cycle-IR是一种无监督的深度重定向方法，并且是在HKU-IS数据集的RGB图像上训练的，这些图像与RetargetMe数据集没有没有重叠。
实验结果表明，该算法能隐式学习输入图像到目标图像的良好映射，使输入图像和输出图像服从相同的分布。

主要贡献

本文提出一种利用输入图像与反映射结果之间循环视觉感知一致性的无监督深度图像重定向新方法。这是首次尝试解决无监督深度学习方法中的图像重定向问题。Cycle-IR不需要任何标记数据，附加参数设置，或人工协助。它比最先进的图像重定向方法表现得更好。
与以往的重定向方法输出一幅重定向图像不同，本文的深度图像重定向模型输出的是一对重定向图像。这种特殊的设计有助于利用循环约束条件获得稳定的重定向模型。
提出了一种循环感知相干损失来评价前后向映射结果之间的循环相干性。这种周期损失允许我们的IRNet以端到端方式训练，并强制IRNet隐式学习一个映射，输入图像和目标图像遵循相同的分布。此外，我们的循环损失的优势使其有可能与其他图像重定向方法相结合，提高它们所产生的目标图像的感知质量。
我们设计了一个空间和通道注意层，它能有效地发现输入信息中视觉感兴趣的区域，特别是在杂乱的图像中。我们利用这个注意层作为一个可学习的网络组件来帮助IRNet学习精确的注意图。

2.相关工作

详细的图像重定向工作作者推荐读者阅读调研文章²。

文章中，主要讨论了代表性的图像重定向方法和最近的一种基于深度学习的方法。
此外，我们还将回顾循环约束在其他领域的成功应用。

2.1 传统重定向方法

传统的图像重定向方法大多是根据先前计算的视觉注意图直接将输入图像重定向到目标长宽比，其中亮区表示输入图像中感兴趣的区域。

这些方法通常利用传统的方法提取像素显著性信息，然后定义一种插入或删除像素的操作方法，以获得目标图像。

接缝裁剪（Seam carving）就是一个很好的例子，它使用了三种方法(如像素梯度、熵能、视觉显著性)来度量输入图像中像素的重要性。然后，定义了一种改变输入图像长宽比的接缝裁剪方法。接缝（seam）是源图像中每一列或每一行像素的8个连接路径。通过迭代地去除或插入接缝，得到重定向图像。

翘曲操作（warping）在输入图像上覆盖一个统一的网格，并为每个网格单元分配不同的缩放因子。重要区域的缩放因子大，反之则小。

所有这些传统的方法都需要基于低级视觉线索或其他人类先验来计算重要性图。重要图的质量问题严重影响了这些方法的性能，严重限制了它们的通用性。

2.2 弱监督图像重定向方法

由于重定向图像的视觉质量很大程度上依赖于主观评价，因此很难建立大规模的图像重定向数据集用于监督学习深度模型。因此，目前还没有什么有监督的重定向方法。

Cho等人¹将深度学习技术引入了图像重定向任务。

他们的深度模型学习移位映射来实现从源图像到目标图像的像素级映射。
他们定义了一个包含两个项的损失函数:内容损失和结构损失。
- 这种损失使得深度网络输出的重定向图像与源图像具有相同的分类。因此，他们的方法需要图像级标注来构造内容损失。这种方法可能无法处理那些不属于训练集中任何类别的图像。
- 此外，为了减少目标图像的失真，提出了利用一维重复卷积对学习得到的平移图进行平滑处理。这种操作有助于减少目标图像中的视觉伪影，但要求输入图像为固定大小。

2.3 循环约束

为了使模型预测规则化并提高其稳定性，循环约束也在其他领域进行了探索。

在语言翻译方面，理查德的研究表明，反向翻译与重调解策略可以有效地提高翻译质量。
对于计算机视觉，高阶和多模态周期一致性已经被用来提高模型预测的稳定性和质量，如联合分割，运动预测，三维形状匹配，语义对齐，深度估计，图像到图像转换，视频帧插值。
在深度学习方面，研究人员将循环一致性的概念引入到深度网络优化的规则化中。

在这项工作中，我们展示了一种新颖可行的方法，利用循环一致性的概念来解决图像重定向问题。

据我们所知，我们是第一个通过使用循环一致性来改进图像重定向的。

我们的Cycle-IR能够产生高质量的目标图像，并达到最先进的结果。

3.深度循环图像重定向

我们的目标是开发一个深度图像重定向模型，当用户提供任意大小的输入图像和期望长宽比时，可以直接生成高质量的目标图像。

3.1 概述了Cycle-IR框架的工作原理
3.2 我们引入了循环感知相干损失
3.3 介绍提出的IRNet的实现细节
3.4 -3.5 验证我们的设计策略并描述训练过程

3.1 Cycle-IR框架

Cycle-IR的核心思想是在去除输入图像的内容得到目标图像时，通过将目标图像重新输入到重定向模型中，可以有效地恢复被去除的信息。同样地，当插入输入图像的内容得到目标图像时，通过重新输入目标图像到重定向模型中，可以很容易地去除插入的信息。

这两种情况都需要满足目标图像的反映射结果与输入图像的像素分布相同这一条件，比如，循环感知一致性。这种循环一致性也有助于获得无失真和伪影的目标图像。

文章提出的循环图像重定向框架如下图所示：
在这里插入图片描述
作者设计了一个两阶段的推理过程，使循环约束中正向映射方向和反向映射方向共享的重定向模型能够被稳定学习。

我做的一页PPT：

考虑一张输入图像 $I_0(H_{I_0}\times W_{I_0})$ 和期望长宽比 $\phi_h\in (0,1],\phi_w\in(0,1]$ 被输入到IRNet模型中。

在第一阶段（向前重定向），为了建立向前和向后重定向过程之间的循环关系，IRNet 模型输出两个目标图像 $I^{LR}$ 和 $I^{HR}$ 。注意，这与以前的图像重定向方法不同，以前的方法在一次推理中只产生一个目标图像。
$I^{LR},I^{HR} = IRNet_{FWD}(I_0)$
其中低分辨率图像 $I^{LR}$ 的分辨率定义为：
$H_{I^{LR}} = \phi_h * H_{I_0}$
$W_{I^{LR}} = \phi_w * W_{I_0}$

与传统的重定向方法不同，我们设置高分辨率图像 $I^{HR}$ 的分辨率为：
$H_{I^{HR}} = \frac{\mu_h}{\phi_h}*H_{I_0}$
$W_{I^{HR}} = \frac{\mu_w}{\phi_w}*W_{I_0}$
其中 $\mu_h$ 和 $\mu_w$ 用来控制 $I^{HR}$ 的尺寸并且在实现中被设置为 1。
我们这样设置 $I^{LR}$ 和 $I^{HR}$ 的分辨率是为了建立用于优化IRNet的循环约束。

在第二阶段，我们重新将在第一阶段得到的目标图像输入进IRNet,从而获得反向映射结果。

要注意的是，这一阶段的IRNet分享第一阶段中相同的网络参数。这一阶段的输出如下：
$I_{LR}^{top},I_{HR}^{top} = IRNet_{REV}(I^{LR})$
$I_{LR}^{bottom},I_{HR}^{bottom} = IRNet_{REV}(I^{HR})$
其中的 $I_{HR}^{top}(H_{I_0}\times W_{I_0})$ 和 $I_{LR}^{bottom}(H_{I_0}\times W_{I_0})$ 被用来计算循环一致性损失。

这是因为我们的方法在训练阶段输出两个目标图像，而在测试阶段只输出一个目标图像。也就是说，我们的方法和传统的重定向方法一样，当IRNet训练完成后，只需要输出一幅目标图像。

最后，我们可以建立 $I_0$ 和 $I_{HR}^{top}$ 之间， $I_0$ 和 $I_{LR}^{bottom}$ 之间的循环感知一致性。

3.2 循环感知一致性损失

作者涉及了循环感知一致性损失 $L_{pair}$ ,来处理输入图像与反映射图像之间的感知一致性。

这种周期损失使我们的IRNet能够隐式地发现输入图像中视觉感兴趣的区域，并有效地学习输入图像和目标图像遵循相同分布的映射。

通过用 $L_{pair}$ 优化IRNet，这样可以获得较好的重定向效果。

感知损失在各个领域都表现出了优越的性能。与以往方法不同的是，我们提出了一对循环感知一致性损失 $L_{pair}$ ，为优化IRNet提供了更稳定的约束条件。 $L_{pair}$ 定义为：
$L_{pair} = \frac{1}{L}\sum_{l=4}^L[(f_l(I_0)-f_l(I_{HR}^{top}) )\times\beta_l]^2+\frac{1}{L}\sum_{l=4}^L[(f_l(I_0)-f_l(I_{LR}^{bottom}) )\times\beta_l]^2$
作者使用了预训练好的VGG16模型中的 $l = 4 (c o n v 4 - 1, c o n v 4 - 2, c n o v 4 - 3)$ 和 $l = 5 (c o n v 5 - 1, c o n v 5 - 2, c o n v 5 - 3)$ 层来代表函数 $f_l(.)$

由于图像重定向不仅需要关注物体的语义区域，而且需要关注图像的整体结构，因此我们采用多重深度表征代替单一深度表征来评估感知一致性。

其中 $\beta_4$ 和 $\beta_5$ 分别设置为 1 和 3。设置 $\beta_5$ 为3 是因为更深层次的表达包含更多的语义信息。上面公式确保输入图像和反映射图像的这些高级深度表示在高级深度表示方面是一致的，特别是更深层次表示(l = 5)。

3.3 IRNet的实现

图1中提出的Cycle-IR框架是灵活的，允许用户自由地设计所需的网络结构来实现它。

图2显示了我们的图像重定向网络(IRNet)的实现，它是一个完全卷积的结构。
在这里插入图片描述

IRNet网络由一个主干网络（VGG16的Conv4-1块），三个卷积层，和一个空间和通道注意层组成。

尽管我们的IRNet很简单，但它在处理输入图像的长宽比方面取得了优异的性能。
更先进的网络可以很容易地合并，以实现更好的性能。

3.3.1 获得视觉注意图

给定一张输入图像 $I_0$ 和目标长宽比 $\phi_h$ 和 $\phi_w$ , 将它们输入到主干网络和实现了非线性转换的三个卷积层，能够获得一个深度表示 $F_{map}$ 。

由于 $F_{map}$ 中神经元的激活值往往分散在空间和通道上，我们需要一种有效的方法来获取与输入图像相对应的注意图。因此，我们将 $F_{map}$ 输入进空间和通道注意层，得到视觉上的注意图 $I_{attn}$ 。
$I_{attn} = \Gamma_{attn}(F_{map})$
其中 $\Gamma_{attn}$ 表示空间和通道注意层的非线性转换，详细见下方说明：

3.3.2 空间与通道注意层

下图展现了空间注意层和通道注意层的网络结构，包括空间注意和通道注意两部分。
在这里插入图片描述

GAP: 全局平均池化层：为什么使用全局平均池化层？

信道注意分量的输入是空间注意分量中第二卷积层的输出，而不是提取的深度表示 $F_{map}$ 。

这种结构设计有助于利用空间注意力组件的差异化信息。

注意图 $I_{Attn}$ 可以计算为:
$I_{attn} = F_{map}*w_s*w_c$
其中 $w_s$ 和 $w_c$ 分别表示空间和通道注意分量产生的空间权重和通道权重。

3.3.3 生成期望目标图像

为了获得理想的目标图像，我们采用连续的方法在视觉注意图 $I_{attn}$ 的引导下对输入图像的分辨率进行变形。

需要注意的是，整个变形过程被整合到IRNet模型的优化中，这有助于IRNet根据自己的方式来决定生成最佳目标图像的方式.

具体地说，我们用一个统一的M列N行网格覆盖输入图像。则每一个网格单元的尺寸为 $\frac{H_{I_0}}{M}\times \frac{W_{I_0}}{N}$ , 根据学习到的注意图 $I_{attn}$ , 我们计算了每一个网格单元的缩放因子，用于重构 $I^{LR}$ :
$S_i^h(I^{LR}) = \frac{1}{N}\sum_{j=1}^N\frac{1}{1+e^{-I_{attn(i,j)}}}$
$S_j^w(I^{LR}) = \frac{1}{M}\sum_{j=1}^M\frac{1}{1+e^{-I_{attn(i,j)}}}$

基于计算好的 $S_i^h(I^{LR})\in (0,1]$ 和 $S_j^w(I^{LR})\in(0,1]$ , 我们可以很容易地得到重构 $I^{HR}$ 的每个网格单元的比例因子如下:
$S_i^h(I^{HR}) = 1-S_i^h(I^{LR})+\psi_h$
$S_i^w(I^{HR}) = 1-S_i^w(I^{LR})+\psi_w$
其中 $\psi_h$ 和 $\psi_w$ 是调整因子并在实现中设置为 1。一般来说，对于不同的场景深度网络具有学习合适的调整因子（比如 $S^h(I^{LR})$ 和 $S^w(I^{LR})$ ）的能力。

随后，基于计算
$S(I^{LR}) = \{S^h(I^{LR}, S^w(I^{LR})\}$
$S(I^{HR}) = \{S^h(I^{HR}, S^w(I^{HR})\}$
对每个网格进行变形处理,并获得目标图像 $I^{LR}$ 和 $I^{HR}$ 。实验结果表明，该方法可以在不需要额外人工辅助或弱标签的情况下，大大提高图像重定位的质量。

在此基础上，通过考虑任务相关知识，扩展了循环相干性的概念，能够自动确定输入图像中需要删除或保留的区域。

3.4 验证

提出的Cycle-IR框架是基于以下想法:：

为了训练深度重定向网络，建立大规模的图像重定向数据集是一项具有挑战性的工作。它不仅需要找到一种有效的方法来生成目标图像，还需要大量的人力来评估它们的质量。此外，为了提高图像重定向的实用性，还需要摆脱手工设计原则的限制。图像重定向算法需要通过学习获得处理不同复杂场景的泛化能力。因此，我们避开了有监督和弱监督的方法，提出了一种无监督的方法来有效地学习深度重定向模型。
利用循环约束优化重定向模型，使基于深度学习的图像重定向成为可能。此外，通过循环感知相干性，IRNet模型可以稳定地学习到良好的重定向映射，并产生视觉效果良好的重定向结果。
输入图像中的视觉注意区域应该准确定位，尤其是在杂乱的图像中。为此，我们设计了一个空间和通道注意层，以一种易于学习的方式发现非常重要的领域。我们利用这个注意层来帮助IRNet学习准确的注意图。开发这样的注意层具有避免使用大规模网络来实现类似性能的传统优势，从而降低计算成本和内存占用。

3.5 训练和推理

为了训练 IRNet 模型，我们将HKU-IS数据集中的RGB图像作为训练集。这个数据集包含4，447张图片。任何没有用户标注的RGB图像都可以作为我们的训练集。

在训练过程中，随机生成每个训练批次的输入长宽比包括 $(H_{I_0}/4 \sim H_{I_0}/2)\times(W_{I_0}/4\sim W_{I_0}/2)$ 。

训练过程非常快，在使用Nvidia GPU Quadro M4000的机器上进行5个时间段的训练大约需要20个小时。

在推理过程中，给定输入图像和期望的目标尺寸，IRNet模型可以直接输出期望长宽比的目标图像，因此没有必须的预处理操作(如计算显著性地图、检测人脸、语义分割等)或后处理(如缝纫、缩放等)。

D. Cho, J. Park, T.-H. Oh, Y .-W. Tai, and I. S. Kweon, “Weakly-and self-supervised learning for content-aware deep image retargeting,” in Proc.IEEE Int. Conf. Comput. Vision, 2017, pp. 4568–4577. ↩︎ ↩︎
R. Pal and P . C. Tripathi, “Content-aware image retargeting: A survey,”Innovative Research Attention Model. Comput. Vision Appl., IGI Global,pp. 115–131, 2016. ↩︎

qq_22565865

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
论文阅读--Cycle-IR: Deep Cyclic Image Retargeting

论文阅读--Cycle-IR（2020）: 深度循环图像重定向摘要1.介绍2.相关工作2.1 传统重定向方法2.2 弱监督图像重定向方法2.3 循环约束3.深度循环图像重定向摘要由于摆脱了手工表示的限制，监督深度学习技术在各个领域都取得了巨大的成功。然而，以往的图像重定向算法大多采用固定的设计原则，如使用梯度图或手工特征计算显著图，这不可避免地限制了其通用性。深度学习技术可能有助于解决这一问题，但具有挑战性的问题是，我们需要建立一个大规模的图像重定向数据集来训练深度重定向模型。然而，建立这样的数据
复制链接

扫一扫