学习笔记：CLIPstyler: Image Style Transfer with a Single Text Condition 具有单一文本条件的图像风格迁移

明天吃啥呀

已于 2022-11-27 19:06:32 修改

阅读量4.1k

点赞数 4

分类专栏：风格迁移多模态迁移学习文章标签：深度学习计算机视觉迁移学习

于 2022-11-27 18:24:11 首次发布

本文链接：https://blog.csdn.net/Qi__Xi/article/details/128064561

版权

[CVPR-2022] CLIPstyler: Image Style Transfer with a Single Text Condition 具有单一文本条件的图像风格迁移

摘要
1. 背景
2. 方法
3. 实验
4. 快速风格迁移
5. 总结

论文链接：https://arxiv.org/abs/2112.00374v3
代码链接：https://github.com/cyclomon/CLIPstyler

摘要

现有的神经风格迁移方法需要参考风格图像将风格图像的纹理信息迁移到内容图像。然而，在许多实际情况下，用户可能没有参考的风格图像，但仍然有兴趣通过想象来传递风格。为了处理此类应用需求，本文提出了一个新框架，该框架可以在“没有”风格图像，只有所需风格的文本描述的情况下实现风格迁移。使用预训练文本-图像嵌入模型 CLIP，本文演示了仅在单个文本条件下对内容图像风格的调制。具体来说，本文提出了一种具有多视图增强的patch文本-图像匹配损失，以实现逼真的纹理传输。广泛的实验结果证实了利用反映语义查询文本的真实纹理进行的成功的图像风格迁移。

1. 背景

风格迁移是指将一张风格图像中的颜色和纹理风格迁移到另一张内容图像上，同时保存内容图像的结构。然而，现有的神经风格迁移方法通常需要参考风格图像，但在许多实际情况下，用户可能没有可参考的风格图像，但仍然有兴趣通过想象来迁移风格。例如，用户可以想象能够将自己的照片转换为莫奈或梵高风格，而无需拥有著名画家的画作，或者仅凭想象力将日光图像转换为夜间图像。
目前，有几种方法已尝试使用具有传达所需风格的文本条件来处理图像。这些方法通常使用预训练的文本-图像嵌入模型将文本条件的语义信息传递到视觉域。然而，这些方法往往存在缺点，由于嵌入模型的性能限制，语义不能得到正确反映，并且由于该方法严重依赖于预训练的生成模型，因此操作仅限于特定的内容域（如人脸）。

2. 方法

为了解决上述问题，本文提出了一种新的图像风格迁移方法，利用对比语言-图像预训练模型（CLIP）来传递文本条件的语义纹理。本文训练一个轻量级的CNN网络，该网络可以表达与文本条件相关的纹理信息，并产生逼真的结果。内容图像由该网络转换，通过匹配传输图像的CLIP模型输出与文本条件之间的相似性来遵循文本条件。此外，当网络针对多个内容图像进行训练时，无论内容图像如何，本文的方法都可以实现文本驱动的风格迁移。

2.1 基本框架

图中是本文的基本框架，目的是通过预先训练的CLIP模型，将目标文本的语义风格迁移到内容图像上。与现有方法的不同之处在于，本文没有风格图像作为参考。

由于本文的模型仅在由CLIP监督的情况下获得语义转换后的图像，因此存在几个问题需要解决:

（1）如何从CLIP模型中提取语义纹理信息，并将纹理应用于内容图像；

（2）如何正则化训练，使输出图像质量不受影响。

当给定一个内容图像 $I$ _c 时，我们的目标是获得风格迁移输出 $I$ _cs。但使用传统的像素优化方法并不能得到想要的纹理。为了解决这一问题，本文引入了一种CNN编码器-解码器模型StyleNet $f$ ，该模型可以捕获内容图像的层次视觉特征，同时在深度特征空间对图像进行风格化，以获得真实的纹理表示。另外，利用多视图增强和基于CLIP的损失对模型进行优化训练，使其输出具有目标纹理。