一些非常酷的GAN的应用

最新推荐文章于 2024-01-07 02:06:12 发布

ronghuaiyang

最新推荐文章于 2024-01-07 02:06:12 发布

阅读量846

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011984148/article/details/99439879

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Jonathan Hui

编译：ronghuaiyang

导读

GANs被称为是度学“过去20年内在深习上最酷的想法”，既然是最酷的想法，那就会有最酷的应用，一起来看看吧！

在GAN发展的头几年，我们取得了令人印象深刻的进展。再也不是恐怖电影里那种邮票大小的面部照片了。在2017年，GAN生成的1024×1024的图像可以让星探上当。在未来几年，我们可能会看到GANs生成的高质量视频。商业应用将会出现！作为GAN系列的一部分，我们将研究一些很酷的应用，并希望它们能够成为你的GAN应用的灵感来源。

创造动漫人物

游戏开发和动画制作成本高昂，需要雇佣许多艺术家来完成相对常规的任务。GAN可以自动生成动画角色并为其上色。

640?wx_fmt=png

Towards the automatic Anime characters creation with Generative Adversarial Networks

生成器和判别器由多个卷积层、batch normalization和带跳跃连接的ReLU层组成。

640?wx_fmt=png

人物姿态图像生成

通过额外的姿态输入，我们可以将图像转换成不同的姿态。例如，右上角的图像是ground truth，右下角的图像是生成的图像。

640?wx_fmt=jpeg

下面的是生成的图像。

640?wx_fmt=png

这个设计由两级图像生成器和判别器组成。生成器使用元数据(姿态)和原始图像来重建图像。判别器使用原始图像作为CGAN设计的标签输入的一部分。

640?wx_fmt=png

CycleGAN

跨域转换GANs很可能是第一批的商业应用。这些GANs将图像从一个领域(如真实的风景)变换到另一个领域(莫奈或梵高的绘画)。

640?wx_fmt=png

例如，它可以在斑马和马之间转换图像。

640?wx_fmt=png

CycleGAN构建2个网络G和F，构建从一个域到另一个域以及相反方向的图像变换。它使用判器来判断生成的图像的好坏。例如，G将真实图像转换为梵高风格的绘画，Dy用于区分图像是真实的还是生成的。

域A➝域B：

640?wx_fmt=jpeg

我们在相反的方向域B➝域A重复这个过程：

640?wx_fmt=jpeg

PixelDTGAN

时尚博主和电子商务已经开始流行根据名人照片来推荐商品。PixelDTGAN可以从一张图像来创建服装图像和样式。

640?wx_fmt=png

640?wx_fmt=png

PixelDTGAN

640?wx_fmt=png

PixelDTGAN

超分辨率

从低分辨率创建超分辨率图像。在这一领域，GAN表现出了令人印象深刻的成果，并具有即刻的商业可能性。

640?wx_fmt=png

SRGAN

与许多GAN设计类似，它由许多卷积层、batch normalization、高级ReLU和skip连接组成。

640?wx_fmt=png

SRGAN

渐进生成的GANs

渐进式GAN可能是第一个展示商业级图像质量的GAN。下面是由GAN生成的1024×1024的名人图片。

640?wx_fmt=png

Progressive growing of GANs

它采用分治策略，使训练更加可行。一次训练构建2×分辨率的图像。

640?wx_fmt=jpeg

9个阶段，生成一个1024×1024的图像。

640?wx_fmt=png

Progressive growing of GANs

高分辨率图像生成

这不是图像分割！而是反过来，从语义映射生成图像。收集样本是非常昂贵的。我们尝试用生成的数据来补充训练数据集，以降低开发成本。在训练自动驾驶汽车的过程中生成视频，而不是看着它们在你的社区里巡航，这将非常方便。

网络设计：

640?wx_fmt=png

pix2pixHD

640?wx_fmt=png

pix2pixHD

Text to image (StackGAN)

文本到图像是域转换GAN较早的应用之一。我们输入一个句子并生成多个符合描述的图像。

640?wx_fmt=png

StackGAN

640?wx_fmt=png

StackGAN

文本到图像的生成

另一个流行的实现：

640?wx_fmt=png

Generative Adversarial Text to Image Synthesis

人脸生成

合成不同姿势的人脸：用一张输入图像，我们创建不同视角的人脸。例如，我们可以使用它来转换图像，这将更容易进行人脸识别。

640?wx_fmt=png

TP-GAN

640?wx_fmt=png

TP-GAN

图像修复

修复图像是几十年前的一个重要课题。GAN用于修复图像，并用创建的“内容”填充缺失的部分。

640?wx_fmt=png

Context encoder

学习联合分布

用不同的面部特征组合(金发，女性，微笑，戴眼镜)，(棕色，男性，微笑，不戴眼镜)创建GANs是很昂贵的…相反，我们可以学习单独的数据分布，并将它们组合成不同的分布。即不同的属性组合。

640?wx_fmt=png

640?wx_fmt=png

CoGAN

640?wx_fmt=png

CoGAN

DiscoGAN

DiscoGAN提供了风格的匹配：许多潜在的应用。disco学习跨域的关系，没有标签或配对。例如，它成功地将样式(或模式)从一个域(手袋)变换到另一个域(鞋子)。

640?wx_fmt=png

DiscoGAN

Discgan和CycleGAN在网络设计上非常相似。

640?wx_fmt=png

DiscoGAN

Pix2Pix

Pix2Pix是一种图像到图像的转换，经常在GAN的跨域论文中被引用。例如，它将卫星图像转换为地图(左下角)。

640?wx_fmt=png

DTN

从图片中创建表情符号。

640?wx_fmt=png

DTN

640?wx_fmt=png

DTN

纹理生成

640?wx_fmt=png

MGAN

图像编辑 (IcGAN)

重建或编辑具有特定属性的图像。

640?wx_fmt=png

IcGAN

640?wx_fmt=png

IcGAN

Face aging (Age-cGAN)

640?wx_fmt=png

Age-cGAN

640?wx_fmt=png

Age-cGAN

Neural Photo Editor

基于内容的图像编辑：例如，扩展发带。

640?wx_fmt=gif

Refine image

640?wx_fmt=png

物体检测

这是用GAN增强现有解决方案的一个应用。

640?wx_fmt=png

Perceptual GAN

图像融合

把图像融合在一起。

640?wx_fmt=png

GP-GAN

视频生成

创建新的视频序列。它识别什么是背景，并为前台操作创建新的时间序列。

生成3D物体

这是一篇经常引用的用GAN创建3D对象的文章。3DGAN

640?wx_fmt=png

3DGAN

音乐生成

GAN可以应用于非图像领域，如作曲。

640?wx_fmt=png

MidiNet

640?wx_fmt=png

MidiNet

医疗(异常检测)

GAN还可以扩展到其他行业，如肿瘤检测领域。

640?wx_fmt=png

AnoGAN

640?wx_fmt=png

640?wx_fmt=png

— END—

英文原文：https://medium.com/@jonathan_hui/gan-some-cool-applications-of-gans-4c9ecca35900

640?wx_fmt=jpeg

请长按或扫描二维码关注本公众号

喜欢的话，请给我个好看吧！

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。