论文阅读 StyleCLIP:《StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery》

在这里插入图片描述
论文地址:https://arxiv.org/pdf/2103.17249.pdf

摘要

在这项工作中,我们探索如何利用最近引入的对比语言图像预训练(CLIP)模型的力量,为StyleGAN图像处理开发一个基于文本的界面,而不需要手动操作。

  1. 我们首先介绍一种优化方案,该方案利用基于剪贴簿的丢失来修改输入潜在向量,以响应用户提供的文本提示。
  2. 接下来,我们将描述一个潜在映射器,该映射器为给定的输入图像推断文本引导的潜在操作步骤,从而允许更快、更稳定的基于文本的操作。
  3. 最后,我们提出了一种将文本提示映射到StyleGAN样式空间中输入不可知方向的方法,从而实现交互式文本驱动的图像操作。

1. 介绍

  现有控件只能沿预设的语义方向操作图像,严重限制了用户的创造力和想象力。无论何时需要额外的未映射方向,都需要进一步的手动操作和/或大量带注释的数据。图1显示了使用我们的方法产生的独特操作的几个示例。

在这里插入图片描述

图1。使用StyleCLIP的文本驱动操作示例。顶行:输入图像;最后一行:我们操纵的结果。用于驱动每个操作的文本提示显示在每列下。

具体而言,在本文中,我们研究了三种将CLIP与StyleGAN相结合的技术:

  1. 文本引导的潜在优化,其中剪辑模型用作损耗网络[14]。这是最通用的方法,但需要几分钟的优化才能对图像进行操作。
  2. 为特定文本提示而训练的潜在残余映射器。给定一个潜在空间的起点(要计算的输入图像),潜在空间中出现的局部步长。
  3. 一种将文本提示映射到StyleGAN样式空间中的输入诊断(全局)方向的方法,提供对操作强度和分离程度的控制。

2. 相关工作

2.1 视觉与语言

  联合描述:BERT,CLIP(学习多模态嵌入空间,该空间可用于估计给定文本和图像之间的语义相似性)
  文本引导的图像生成与处理

2.2 潜空间图像处理

  此类方法可分为:(i)使用图像注释寻找有意义的潜在路径的方法[40,1],(ii)在无监督的情况下找到有意义的方向,并要求对每个方向进行手动注释的方法[13,42,48,49]。

3. StyleCLIP文本驱动操作

  1. optimizer(优化方法):最小化在剪辑空间中计算的损失来优化StyleGAN W+空间中图像的给定潜在代码。尽管它具有多功能性,但执行一次操作需要几分钟,而且该方法可能难以控制。
  2. mapping(映射网络):对映射网络进行训练,以在单个正向过程中推断潜在空间中的操纵步骤。培训需要几个小时,但每个文本提示只能进行一次。由于操作步骤是在W中执行的,因此很难以分离的方式实现细粒度的视觉效果。
  3. global(全局空间):给定的文本提示转换为输入不可知(即,潜在空间中的全局)映射方向。更适合细粒度和非纠缠的视觉操作

表1总结了上述三种方法之间的差异
在这里插入图片描述

表1。我们的三种结合StyleGAN和CLIP的方法。优化器和映射器推断出的潜在步长取决于输入图像,但每个文本提示只进行一次训练。全局方向方法需要一次性预处理,然后可以应用于不同的(图像、文本提示)对。时间适用于单个NVIDIA GTX 1080Ti GPU。

4. 潜在优化

给定一个源代码w∈ W+和自然语言的指令或文本提示t,我们解决以下优化问题:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

平什么阿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值