论文阅读 StyleCLIP：《StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery》

最新推荐文章于 2024-08-26 08:21:48 发布

平什么阿

最新推荐文章于 2024-08-26 08:21:48 发布

阅读量3.5k

点赞数

分类专栏：论文阅读文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41433002/article/details/121355531

版权

在这里插入图片描述
论文地址：https://arxiv.org/pdf/2103.17249.pdf

文章目录

摘要
1. 介绍
2. 相关工作
- 2.1 视觉与语言
- 2.2 潜空间图像处理
3. StyleCLIP文本驱动操作
4. 潜在优化
5. 潜在映射
6. 全局方向
7. 对比与评价
总结

摘要

在这项工作中，我们探索如何利用最近引入的对比语言图像预训练（CLIP）模型的力量，为StyleGAN图像处理开发一个基于文本的界面，而不需要手动操作。

我们首先介绍一种优化方案，该方案利用基于剪贴簿的丢失来修改输入潜在向量，以响应用户提供的文本提示。
接下来，我们将描述一个潜在映射器，该映射器为给定的输入图像推断文本引导的潜在操作步骤，从而允许更快、更稳定的基于文本的操作。
最后，我们提出了一种将文本提示映射到StyleGAN样式空间中输入不可知方向的方法，从而实现交互式文本驱动的图像操作。

1. 介绍

现有控件只能沿预设的语义方向操作图像，严重限制了用户的创造力和想象力。无论何时需要额外的未映射方向，都需要进一步的手动操作和/或大量带注释的数据。图1显示了使用我们的方法产生的独特操作的几个示例。

在这里插入图片描述

图1。使用StyleCLIP的文本驱动操作示例。顶行：输入图像；最后一行：我们操纵的结果。用于驱动每个操作的文本提示显示在每列下。

具体而言，在本文中，我们研究了三种将CLIP与StyleGAN相结合的技术：

文本引导的潜在优化，其中剪辑模型用作损耗网络[14]。这是最通用的方法，但需要几分钟的优化才能对图像进行操作。
为特定文本提示而训练的潜在残余映射器。给定一个潜在空间的起点（要计算的输入图像），潜在空间中出现的局部步长。
一种将文本提示映射到StyleGAN样式空间中的输入诊断（全局）方向的方法，提供对操作强度和分离程度的控制。

2. 相关工作

2.1 视觉与语言

联合描述：BERT，CLIP（学习多模态嵌入空间，该空间可用于估计给定文本和图像之间的语义相似性）
文本引导的图像生成与处理：

2.2 潜空间图像处理

此类方法可分为：（i）使用图像注释寻找有意义的潜在路径的方法[40,1]，（ii）在无监督的情况下找到有意义的方向，并要求对每个方向进行手动注释的方法[13,42,48,49]。

3. StyleCLIP文本驱动操作

optimizer（优化方法）：最小化在剪辑空间中计算的损失来优化StyleGAN W+空间中图像的给定潜在代码。尽管它具有多功能性，但执行一次操作需要几分钟，而且该方法可能难以控制。
mapping（映射网络）：对映射网络进行训练，以在单个正向过程中推断潜在空间中的操纵步骤。培训需要几个小时，但每个文本提示只能进行一次。由于操作步骤是在W中执行的，因此很难以分离的方式实现细粒度的视觉效果。
global（全局空间）：给定的文本提示转换为输入不可知（即，潜在空间中的全局）映射方向。更适合细粒度和非纠缠的视觉操作

表1总结了上述三种方法之间的差异
在这里插入图片描述

表1。我们的三种结合StyleGAN和CLIP的方法。优化器和映射器推断出的潜在步长取决于输入图像，但每个文本提示只进行一次训练。全局方向方法需要一次性预处理，然后可以应用于不同的（图像、文本提示）对。时间适用于单个NVIDIA GTX 1080Ti GPU。

4. 潜在优化

给定一个源代码w∈ W+和自然语言的指令或文本提示t，我们解决以下优化问题：
在这里插入图片描述

最低0.47元/天解锁文章

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

平什么阿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。