StyleCLIP项目由以色列的耶路撒冷希伯来大学、特拉维夫大学和Adobe研究所共同完成,它用对比语言—图像预训练(CLIP)模型的力量,为StyleGAN2 图像处理开发一个基于文本的输入界面,利用StyleGAN2的潜在空间来操纵生成的StyleGAN2图像,而不需要人工去操作或修饰图像。简单地说,就是写一段文字,指导StyleGAN2生成具备指定特征的图像。
论文地址:https://arxiv.org/abs/2103.17249
Github项目:https://github.com/orpatashnik/StyleCLI
关于开发环境的准备和配置过程,请参考:
【实战】(以色列·希伯来大学)文本驱动的StyleGAN2图像处理(一):StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
(一)架构简介
“潜码映射器”是StyleCLIP提供的一个卓有成效的方法,在操作StyleGAN2图像特征方面有十分优异的表现。下面是这个方法的架构(最核心的损失函数部分的介绍请参考论文原文,这里不再展开):
【翻译】图2. 我们的文本引导映射器的体系结构(在本例中使用的文本提示是:“惊讶的”)。源图像(左)首先被反转为潜码w;三个单独的映射函数(译者注:分别是“粗粒度映射”Mapper Coarse、“中粒度映射”Mapper Medium和“细粒度映射”Mapper Fine,每个Mapper函数都是4层全连接网络,通过训练得到稳定的参数)用来生成残差(蓝色),然后,这些残差与w求和,再经由预训练的StyleGAN模型(绿色)生成图像(右侧);最后,通过CLIP损失函数和一致性损失函数对Mapper的效果进行评估。
(二)上手试用
(2.1)下载Mapper模型:
紫色头发(purple hair):https://pan.baidu.com/s/1ZmMn7KTAm32abavSL7lgOg 提取码: piq6
碧昂丝(Beyonce):https://pan.baidu.com/s/1eEKQf2L7bs5nc5TIk_i8Ng 提取码: 438u
德普(Depp):https://pan.baidu.com/s/1gmRQoJ_46onZOrzwGb-t1A 提取码: 6brg
扎克伯格(Zuckerberg):https://pan.baidu.com/s/1ieT_wVHPwICgQU6v5I