Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记

最新推荐文章于 2024-04-27 09:33:14 发布

宅宅宅的程序媛

最新推荐文章于 2024-04-27 09:33:14 发布

阅读量1.5k

收藏 4

点赞数

分类专栏： StyleGAN 文章标签：深度学习生成对抗网络图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ssssssssss12/article/details/120642412

版权

StyleGAN 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

代码

https://github.com/eladrich/pixel2style2pixel

相关工作

一、W空间和W+空间：

1、（styleGAN和StyleGAN2）W空间：将一个真实图像编码到一个512维的向量w∈W空间，很难准确重构。

以往的方法往往是遵循“invert first, edit later”（先反转，再编辑）的原则：

首先将图像转换为StyleGAN的潜在空间，然后以语义上有意义的方式编辑潜在代码，以获得新的代码，然后StyleGAN使用该代码生成输出图像。

2、（styleGAN encoder；styleGAN2 encoder）W+ 空间：一个扩展的潜在空间；利用额外的encoder生成18个不同的512维w向量的拼接（concatenation）；然后输入到预训练的styleGAN generator中，生成图像。此类方法往往需要在W+空间对于每一个图像都进行优化；通过encoder在W+空间推断一个近似向量作为好的初始点，然后进行后续优化。

二、GAN Inversion

GAN 反演首次被提出：Jun-Yan Zhu, Philipp Krahenb ¨ uhl, Eli Shechtman, and ¨Alexei A Efros. Generative visual manipulation on the natural image manifold. In European conference on computer vision, pages 597–613. Springer, 2016

三种常见的反演方法：

直接优化潜在向量以最小化给定图像的误差，
训练编码器将给定图像映射到潜在空间
两者结合的混合方法

三、Latent Space Manipulation 潜在空间编辑

一般的方法往往遵循，先反转再编辑的步骤，本文提出的方法将输入图像编码到相应的（期望的）输出潜在（output latent）中，允许处理不在StyleGAN域中的输入。

四、Image-to-Image：图像到图像转换（略）

论文贡献

1、提出一种可以生成一系列style code的编码器，该系列style code构成了W+空间，可以输入到预训练的styleGAN 生成器，进行图像编辑。

提出的编码器可以直接将真实图像嵌入到W+空间，而不需要任何的优化。该encoder，基于一个Feature Pyramid Network（特征金字塔网络），从不同的金字塔尺度提取风格向量；然后直接输入到预训练好的styleGAN生成器的对应尺度层。

2、存在一个局限：输入的真实图像必须存在着一个可以编辑的潜在编码。为了解决这一问题，提出了一种将提出编码器和预训练styleGAN generator 相结合的image-to-image translation（图像转换）的通用框架。

使用从编码器网络的最后一层获得的512维向量，直接将给定的输入图像编码为W+，从而获得18个风格向量（意思是获得18个相同的风格向量嘛？）。但是此类方法，获得的图像在更精细的方面存在不足。StyleGAN中也表明，不同的style input ，对应于不同的细节级别，大致可以分为粗粒度、中粒度和细粒度三个级别。

网络结构

紫色框--实际上通过随机抽样向量w∈R512，并通过复制w生成在w +中的，相应的潜在代码。style-mixing 如下图所示。

损失函数

像素损失：

感知损失（感知相似度）：

正则化损失：鼓励生成的style code 与styleGAN的平均style code的一致性

identity 损失：保证身份信息的一致性。 R表示预训练的ArcFace网络

总的损失函数：

数据集

AFHQ Cat and AFHQ Dog datasets

CelebA-HQ dataset

FFHQ dataset

评价指标

重构图像质量： Similarity # LPIPS # MSE # Runtime

Human Perceptual Study

实验结果

StyleGAN Inversion （styleGAN 反演）

目录

代码

相关工作

论文贡献

网络结构

损失函数

数据集

评价指标

实验结果

宅宅宅的程序媛

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

宅宅宅的程序媛 CSDN认证博客专家 CSDN认证企业博客

码龄7年

暂无认证

3: 原创

67万+: 周排名

77万+: 总排名

2442: 访问

: 等级

31: 积分

0: 粉丝

0: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

分类专栏

StyleGAN 1篇

最新评论

The Most Common Habits from more than 200 English Papers written by Graduate Chinese Engineering Stu
CSDN-Ada助手: 恭喜您持续创作并完成第三篇博客！标题非常吸引人，我很期待了解来自200多位中国工科研究生的英文论文中最常见的习惯。您的研究领域和题材选择很有深度，这无疑为读者提供了宝贵的见解。在下一步的创作中，或许您可以考虑进一步深入探讨这些习惯的原因和影响。例如，您可以研究这些习惯对研究生写作技巧和跨文化交流的影响。这样的分析将为读者提供更全面的认识，并且可以为那些希望提高自己写作能力的人提供实用的建议。同时，我想提醒您，文中使用了略微简化的标题缩写，这可能会让读者产生疑惑。或许您可以考虑在文章标题中使用完整的表达，以确保读者清楚地了解您的研究范围和主题。无论如何，我相信您的博客会继续为读者带来更多有价值的内容。再接再厉！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 阅读笔记
zsyyugong: 你这文章机翻的吧，不通顺，不知所云。

大家在看

最新文章

2023年1篇

2021年2篇

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值