【论文阅读】CartoonGAN: Generative Adversarial Networks for Photo Cartoonization

最新推荐文章于 2024-04-14 09:31:02 发布

而与你及

最新推荐文章于 2024-04-14 09:31:02 发布

阅读量3.3k

点赞数 3

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/sinat_36197913/article/details/103079940

版权

CartoonGAN是一种基于GAN的解决方案，用于将真实照片转换为高质量的卡通图像。该方法利用未配对的训练图像，采用语义内容损失和边缘增强对抗性损失，以应对照片和卡通之间的样式变化。实验表明，CartoonGAN能生成清晰边缘和平滑阴影的卡通图像，优于现有技术。

摘要由CSDN通过智能技术生成

CartoonGAN: Generative Adversarial Networks for Photo Cartoonization

Abstract
Introduction
RelatedWork
CartoonGAN
Experiments
Conclusion and Future Work
论文地址
代码

Abstract

在本文中，我们提出了一种将现实世界中的照片转换为卡通风格的图像的解决方案，这对计算机视觉和计算机图形学来说是有价值且具有挑战性的。我们的解决方案属于基于学习的方法，最近已流行为以绘画等艺术形式对图像进行样式化。但是，由于以下问题，现有的方法无法获得令人满意的卡通化效果：

卡通风格具有独特的特征，具有高度的简化和抽象；
卡通图像倾向于具有清晰的边缘，平滑的阴影和相对简单的特征。这对现有方法中使用的基于纹理描述符的损失函数提出了重大挑战。

在本文中，我们提出了CartoonGAN，这是一种用于卡通化的生成对抗网络（GAN）框架。我们的方法可以利用不成对的照片和卡通图像进行训练，这很容易得到。提出了两种适合卡通化的新颖损失：

语义内容损失，这表示为VGG网络的高级特征图中的稀疏正则化，以应对照片和卡通之间的大量样式变化；
保留清晰边缘的边缘增强对抗性损失。

我们进一步引入了初始化阶段，以改善网络与目标流形的融合。实验结果表明，我们的方法能够从真实照片中生成高质量的卡通图像（即遵循特定艺术家的风格，并具有清晰的边缘和平滑的阴影），并且其性能优于最新方法。

Introduction

在这里插入图片描述
像其他形式的艺术品一样，许多著名的卡通图像都是根据现实世界的场景创建的。上图显示了一个真实的场景，其相应的卡通图像出现在动画电影“你的名字”中。但是，以卡通样式手动重新创建现实世界的场景非常费力，并且需要大量的艺术技巧。为了获得高质量的卡通漫画，艺术家必须画出每条线，并对目标场景的每个颜色区域进行阴影处理。同时，现有的具有标准功能的图像编辑软件/算法无法产生令人满意的卡通化结果。因此，可以将现实世界中的照片自动转换为高质量卡通风格图像的特殊设计技术非常有用，对于艺术家而言，可以节省大量时间，使他们可以专注于更具创造性的工作。这些工具还为照片编辑软件（例如Instagram和Photoshop）提供了有用的补充。

在非照片级真实感渲染领域，以艺术方式对图像进行风格化已得到广泛研究。传统方法为特定样式开发专用算法。但是，需要付出巨大的努力才能产生模仿个体艺术家的细腻风格。近来，基于学习的样式转移方法已经引起了相当大的关注，其中可以基于所提供的示例来对图像进行样式化。尤其是，探索了以循环方式制定的生成对抗网络（GAN）的功能，以实现高质量的样式转换，其独特之处在于该模型使用未配对的照片和风格化的图像进行训练（CycleGAN）。

尽管通过基于学习的样式化已取得了巨大的成功，但最新的方法无法生成具有可接受质量的卡通化图像。主要有两点原因：

首先，这些方法没有添加诸如笔画之类的纹理，生成的卡通图像是从真实图像高度简化和抽象出来的；
其次，尽管艺术家之间的风格有所不同，卡通图像仍具有明显的共同外观-清晰的边缘，平滑的阴影和相对简单的纹理，这与其他形式的艺术品有很大不同。言外之意就是生成的图像效果比较相似。

我们的方法需要一组照片和一组卡通图像进行训练。为了在使训练数据易于获得的同时产生高质量的结果，我们不需要成对的训练图像。从计算机视觉算法的角度来看，卡通样式化的目标是将真实图像映射到卡通图像，同时保持内容不变。为了实现此目标，我们使用了基于GAN的专用架构以及两个简单而有效的损失函数。

本文的主要贡献是：

我们提出了一种基于GAN的专用方法，该方法使用未配对的图像集进行训练，可以有效地学习从真实照片到卡通图像的映射；我们的方法能够生成高质量的卡通化图像，这比最新技术要好得多。当使用来自单个艺术家的卡通图像进行训练时，我们的方法能够再现其样式；
我们在基于GAN的体系结构中提出了两个简单而有效的损失函数。在生成网络中，为了应对照片和卡通之间的大量样式变化，我们在VGG网络的高级特征图中引入了语义损失，定义为l1稀疏正则化。在判别器网络中，我们提出了一种边缘增强的对抗性损失，用于保留清晰的边缘；
我们进一步引入了初始化阶段，以改善网络与目标流形的融合。我们的方法比现有方法更有效地进行训练。

RelatedWork

Nonphotorealistic rendering (NPR)

已经开发了许多NPR算法（自动或半自动）来模仿特定的艺术风格，包括卡通。

Stylization with neural networks

与需要样式/非样式图像成对的传统样式转移方法不同，最近的研究表明，训练用于对象识别的VGG网络具有良好的提取对象语义特征的能力，这在样式化中非常重要。结果，已经开发了更强大的样式转移方法，该方法不需要成对的训练图像。Gatys et al.NST

Image synthesis with GANs

Pix2Pix，CycleGAN

Network architectures

许多工作表明，尽管深度神经网络可以潜在地提高表示复杂函数的能力，但由于梯度消失的问题，它们也可能难以训练。最近引入的残差块概念是简化训练过程的有力选择。它设计了一个“identity shortcut connection”，可缓解训练过程中逐渐消失的梯度问题。基于残差块的模型在生成网络中显示了令人印象深刻的性能。

减轻深度CNN训练的另一种常用方法是批量归一化，该方法旨在抵消内部协变量偏移并减少接近最小点时的振荡。另外，Leaky ReLu（LReLU）是深层CNN中广泛使用的激活函数，用于有效的梯度传播，当单元不活动时，它允许较小的非零梯度，从而提高了网络性能。我们将这些技术集成到我们的卡通化深度架构中。