【论文阅读】Stroke Controllable Fast Style Transfer with Adaptive Receptive Fields

最新推荐文章于 2022-05-07 14:10:28 发布

而与你及

最新推荐文章于 2022-05-07 14:10:28 发布

阅读量903

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/sinat_36197913/article/details/102600947

版权

计算机视觉专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Stroke Controllable Fast Style Transfer with Adaptive Receptive Fields

Abstract
Introduction
Related Work
Pre-analysis

Abstract

最近已经提出了快速风格迁移方法，以将照片实时转换为艺术风格。此任务涉及在风格化结果中控制笔触大小，这仍然是一个挑战。在本文中，我们提出了一种可控制笔触样式的传递网络，该网络可实现连续和空间的笔触大小控制。通过分析影响笔触大小的因素，我们建议明确考虑感受范围和样式图像大小。我们提出了一个StrokePyramid（笔触金字塔）模块，为网络赋予自适应感受野，并提出了两种训练策略，以实现更快的收敛并分别在经过训练的模型上增加新的笔触大小。通过组合提出的运行时控制策略，我们的网络可以实现笔触大小的连续变化，并在同一输出图像的不同空间区域中产生不同的笔触大小。

Introduction

用给定的艺术品风格渲染照片是一个长期的研究课题。传统上，风格迁移的任务通常作为纹理合成的概括来研究。基于视觉纹理建模的最新进展[12]，Gatys等人，首先提出一种算法，该算法利用卷积神经网络（CNN）重新组合给定照片的内容和艺术品的样式，并重建视觉上合理的风格化图像，称为神经风格迁移。自Gatys等人的开创性工作以来，神经风格转换已引起学术界和工业界的广泛关注。但是，Gatys等人的算法。基于迭代图像优化，导致每对内容和样式对的优化过程较慢。为了解决这个问题，已经提出了几种加快风格迁移的算法，在文献中称为快速风格迁移。

当前的快速风格迁移方法可以分为三类，每个样式每个模型（PSPM），多个样式每个模型（MSPM）和每个模型的任意样式（ASPM）。PSPM的要旨是训练前馈样式特定的生成器，并通过前向生成相应的风格化结果。MSPM通过将多种样式进一步集成到一个生成器中来提高效率。ASPM旨在仅通过一种模型来传递任意样式。

PSPM：单个模型只能实现一种固定 style 的风格迁移；
MSPM：单个模型可以实现多种固定 style 的风格迁移；
ASPM：单个模型可以实现任意输入的 style 的风格迁移。

对于所有此类快速迁移算法，都需要在效率和质量之间进行权衡。在质量方面，通常认为PSPM可以产生更具吸引力的风格化结果。但是，PSPM在控制感知因素（例如风格内容权衡，色彩控制，空间控制）方面并不灵活。在这些感知因素中，笔触是表征艺术品的最重要的几何图元之一，如下图所示：
在这里插入图片描述
实际上，对于相同的纹理，不同的艺术家有自己的方式来放置不同大小的笔触，以反映其独特的“样式”（例如，莫奈和波洛克）。为了使用PSPM实现不同的笔触大小，一种可能的解决方案是训练多个模型，即一种笔触大小训练一个模型，这既浪费时间又占用空间。另一个解决方案是将输入图像的大小调整为不同的大小，这将不可避免地损害样式的质量。但是，这些解决方案均不能在不牺牲质量和效率的情况下实现连续的笔触大小控制或在不同的空间区域中产生不同的笔触大小。

在本文中，我们提出了一种笔触可控的快速风格迁移算法，该算法可以将多个笔触大小合并到一个模型中，并实现灵活的连续笔触大小控制和空间笔触大小控制。通过分析在风格化结果中影响笔触大小的因素，我们建议明确考虑感受范围和风格图像大小。

为此，我们提出了一个StrokePyramid模块，为网络赋予自适应感受野，并通过不同的感受野来学习不同的笔触大小。然后，我们引入渐进式训练策略以使网络收敛更快，并引入渐进式训练策略以在经过训练的模型上学习新的笔触大小。通过结合两种建议的运行时控制技术，即连续笔触大小控制和空间笔触大小控制，我们的网络可以在同一输出图像的不同输出或不同空间区域中产生不同的笔触大小。

总而言之，我们的工作有三个主要贡献：

我们分析了在风格化结果中影响笔触大小的因素，并建议在大多数情况下都应考虑感受范围和样式图像大小来控制笔触大小；
我们提出了一种笔触可控的风格迁移网络和两种相应的训练策略，以实现更快的收敛并分别在训练后的模型上增加新的笔触大小；
我们提出了两种运行时控制策略，以使我们的单个模型能够在同一输出图像内的不同空间区域中产生笔触大小和不同笔触大小的连续变化。据我们所知，这是第一个风格迁移网络，可实现连续的笔触大小控制和空间的笔触大小控制。

Related Work

我们在这里简要回顾一下快速风格迁移中的感知因素以及涉及调节神经网络中的感受野的因素。

控制样式快速风格迁移中的感知因素。笔触大小控制属于风格化过程中控制感知因素的领域。在这个领域，最近提出了几项重要的著作。但是，在快速风格迁移期间，很少有人去控制笔触大小。Gatys等人，主要研究快速风格迁移的颜色控制和空间控制。Lu等人，通过合并语义内容，进一步将Gatys等人的工作扩展到有意义的空间控制，从而实现所谓的快速语义风格迁移。另一个相关的工作是Wang等人的算法，该算法旨在学习高分辨率图像的大笔触[36]。他们发现，当前的快速风格迁移算法无法在高分辨率图像中绘制大笔触，并提出了一种从粗到细的体系结构来解决此问题。请注意，[36]中的工作与本文本质上有所不同，因为[36]中的单个预训练模型对于相同的输入图像仍会产生一个笔触大小。
调节神经网络中的感受野。感受野是卷积神经网络中的基本概念之一，它是指输入图像中一个神经元响应的区域，它会影响网络的性能。为了调节感受野，提出了扩展卷积的操作（也称为atrous卷积），该操作通过设置不同的扩展值来支持感受野的扩展，并得到了广泛的应用。还有一种可变形卷积，该卷积在规则卷积中使用额外的偏移量来增加采样位置。此外，魏等人提出了一种基于学习的感受野调节方法，该方法可以自动膨胀或收缩特征图。

Pre-analysis

我们首先回顾一下笔触大小的概念。将风格迁移后的图像视为一系列小笔触纹理的组成，这些小笔触被称为图像中的基本几何微观结构。

在基于深度神经网络的快速风格迁移中，发现三个因素会影响笔触大小，即风格图像的大小，损失网络中的感受野和生成网络中的感受野。

目标风格通常是通过风格图像的gram矩阵得到的，而风格gram矩阵是通过预训练过的VGG网络的特征图得到的。这些基于gram的统计信息是大小敏感的，即它们包含给定风格图像的大小信息。此特性的一个原因是VGG功能随图像大小而变化。VGG的风格特征表达是尺度敏感的 (scale-sensitive)，所以当我们使用不同大小的风格图训练网络，得到的结果是具有不同笔触大小的，要得到更大的笔触，可以通过放大风格图来实现。我们还发现，对于其他风格统计信息（例如中基于BN的统计信息），得出的结论也相同。因此，给定相同的内容图像，使用不同大小的风格图像训练的生成网络可以产生不同的笔触大小。尽管风格化结果中的笔触通常会随着风格图像大小的增加而变大，但是当风格图像缩放至高分辨率（例如3000×3000像素）时，这是不可行的。出现此问题的原因是，经过预训练的VGG损失网络中的神经元只能影响输入图像中感受野大小的区域。当笔触纹理比VGG损失网络中的固定感受野大得多时，在相对较小的区域中，大笔触纹理与更大笔触纹理之间没有视觉差异。

除了上述两个因素外，我们还发现，生成网络中的感受野大小也对笔触大小有影响。在下图中，我们更改了生成网络中的感受野大小，其他因素保持不变。很明显，大的感受野得到了大的笔触。为了解释这一结果，我们将生成网络的训练过程解释为训练卷积核根据感受野的大小来为每个区域绘制相应的笔触的大小。因此，给定两种不同大小的输入图像，经过训练的网络的卷积核会在相同大小的区域中绘制几乎相同大小的笔触纹理。特别是，当生成网络中的感受野小于笔触纹理时，卷积核只能学习在每个区域绘制整个笔触纹理的一部分，这会影响笔触大小。因此，对于较大的笔触大小，网络需要更大的感受野来学习全局笔触参数。对于较小的笔触，网络仅需要学习局部特征。
在这里插入图片描述

综上所述，一般应考虑风格图像的大小和生成网络中的感受野，以控制笔触大小。由于大多数情况下风格图像不是高分辨率的，因为在这项工作中，没有考虑损失网络中感受野的影响。