论文地址:https://arxiv.org/pdf/2103.17249.pdf
摘要
在这项工作中,我们探索如何利用最近引入的对比语言图像预训练(CLIP)模型的力量,为StyleGAN图像处理开发一个基于文本的界面,而不需要手动操作。
- 我们首先介绍一种优化方案,该方案利用基于剪贴簿的丢失来修改输入潜在向量,以响应用户提供的文本提示。
- 接下来,我们将描述一个潜在映射器,该映射器为给定的输入图像推断文本引导的潜在操作步骤,从而允许更快、更稳定的基于文本的操作。
- 最后,我们提出了一种将文本提示映射到StyleGAN样式空间中输入不可知方向的方法,从而实现交互式文本驱动的图像操作。
1. 介绍
现有控件只能沿预设的语义方向操作图像,严重限制了用户的创造力和想象力。无论何时需要额外的未映射方向,都需要进一步的手动操作和/或大量带注释的数据。图1显示了使用我们的方法产生的独特操作的几个示例。
具体而言,在本文中,我们研究了三种将CLIP与StyleGAN相结合的技术:
- 文本引导的潜在优化,其中剪辑模型用作损耗网络[14]。这是最通用的方法,但需要几分钟的优化才能对图像进行操作。
- 为特定文本提示而训练的潜在残余映射器。给定一个潜在空间的起点(要计算的输入图像),潜在空间中出现的局部步长。
- 一种将文本提示映射到StyleGAN样式空间中的输入诊断(全局)方向的方法,提供对操作强度和分离程度的控制。
2. 相关工作
2.1 视觉与语言
联合描述:BERT,CLIP(学习多模态嵌入空间,该空间可用于估计给定文本和图像之间的语义相似性)
文本引导的图像生成与处理:
2.2 潜空间图像处理
此类方法可分为:(i)使用图像注释寻找有意义的潜在路径的方法[40,1],(ii)在无监督的情况下找到有意义的方向,并要求对每个方向进行手动注释的方法[13,42,48,49]。
3. StyleCLIP文本驱动操作
- optimizer(优化方法):最小化在剪辑空间中计算的损失来优化StyleGAN W+空间中图像的给定潜在代码。尽管它具有多功能性,但执行一次操作需要几分钟,而且该方法可能难以控制。
- mapping(映射网络):对映射网络进行训练,以在单个正向过程中推断潜在空间中的操纵步骤。培训需要几个小时,但每个文本提示只能进行一次。由于操作步骤是在W中执行的,因此很难以分离的方式实现细粒度的视觉效果。
- global(全局空间):给定的文本提示转换为输入不可知(即,潜在空间中的全局)映射方向。更适合细粒度和非纠缠的视觉操作
表1总结了上述三种方法之间的差异
4. 潜在优化
给定一个源代码w∈ W+和自然语言的指令或文本提示t,我们解决以下优化问题: