【实战】文本驱动的StyleGAN2图像处理（二）：潜码映射器（Latent Mapper）

最新推荐文章于 2024-08-04 15:54:21 发布

闪闪·Style

最新推荐文章于 2024-08-04 15:54:21 发布

阅读量7.6k

点赞数 4

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41943311/article/details/117697246

版权

本文介绍了StyleCLIP项目，这是一个基于文本的StyleGAN2图像处理工具，通过文本指令生成指定特征的图像。文章详细讲解了如何下载并使用潜码映射器（Mapper）模型，提供了多个示例展示其效果，包括不同名人图像的风格转换。

摘要由CSDN通过智能技术生成

StyleCLIP项目由以色列的耶路撒冷希伯来大学、特拉维夫大学和Adobe研究所共同完成，它用对比语言—图像预训练（CLIP）模型的力量，为StyleGAN2 图像处理开发一个基于文本的输入界面，利用StyleGAN2的潜在空间来操纵生成的StyleGAN2图像，而不需要人工去操作或修饰图像。简单地说，就是写一段文字，指导StyleGAN2生成具备指定特征的图像。

论文地址：https://arxiv.org/abs/2103.17249

Github项目：https://github.com/orpatashnik/StyleCLI

关于开发环境的准备和配置过程，请参考：

【实战】（以色列·希伯来大学）文本驱动的StyleGAN2图像处理（一）：StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

（一）架构简介

“潜码映射器”是StyleCLIP提供的一个卓有成效的方法，在操作StyleGAN2图像特征方面有十分优异的表现。下面是这个方法的架构（最核心的损失函数部分的介绍请参考论文原文，这里不再展开）：

【翻译】图2. 我们的文本引导映射器的体系结构（在本例中使用的文本提示是：“惊讶的”）。源图像（左）首先被反转为潜码w；三个单独的映射函数（译者注：分别是“粗粒度映射”Mapper Coarse、“中粒度映射”Mapper Medium和“细粒度映射”Mapper Fine，每个Mapper函数都是4层全连接网络，通过训练得到稳定的参数）用来生成残差（蓝色），然后，这些残差与w求和，再经由预训练的StyleGAN模型（绿色）生成图像（右侧）；最后，通过CLIP损失函数和一致性损失函数对Mapper的效果进行评估。

（二）上手试用

（2.1）下载Mapper模型：

紫色头发（purple hair）：https://pan.baidu.com/s/1ZmMn7KTAm32abavSL7lgOg 提取码: piq6

碧昂丝（Beyonce）：https://pan.baidu.com/s/1eEKQf2L7bs5nc5TIk_i8Ng 提取码: 438u

德普（Depp）：https://pan.baidu.com/s/1gmRQoJ_46onZOrzwGb-t1A 提取码: 6brg

扎克伯格（Zuckerberg）：https://pan.baidu.com/s/1ieT_wVHPwICgQU6v5I

最低0.47元/天解锁文章

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。