英伟达又一个GAN!PoE-GAN,AI绘图细节拉满,看完直接沸腾了!

点击下方“AI算法与图像处理”,一起进步!

重磅干货,第一时间送达

大家好,我是 阿潘~

最近已经入职新公司了,开启 965 的生活,也开始做新的项目了。最近在适应新环境,不过我依然会努力分享有趣的前沿成果哈。过年的时候,收到小伙伴的私信,说多分享一些实战的内容,以后我也会多多总结一些常见的坑,和大家一起学习成长。

回归正题,今天跟大家分享一篇英伟达的最新成果

提出了一个新的生成对抗网络 (PoE-GAN) 框架,该框架可以合成以多种输入模式或其任何子集为条件的图像。即可以文本 + 分割、文本 + 草图或分割 + 草图等等合成高质量的图像结果。

论文标题:

Multimodal Conditional Image Synthesis with Product-of-Experts GANs

论文、代码和主页链接:

http://arxiv.org/abs/2112.05130

https://deepimagination.cc/PoE-GAN/

摘要

现有的条件图像合成框架基于单一模态中的用户输入生成图像,例如文本、分割、草图或样式参考。它们通常无法在可用时利用多模式用户输入,这降低了它们的实用性。为了解决这一限制,我们提出了专家产品生成对抗网络 (PoE-GAN) 框架,该框架可以合成以多种输入模式或其任何子集为条件的图像,甚至是空集。PoE-GAN 由专家产品生成器和多模态多尺度投影判别器组成。通过我们精心设计的训练方案,PoE-GAN 学会了合成高质量和多样性的图像。除了提高多模态条件图像合成的最新技术水平外,PoE-GAN 在单模态条件下进行测试时也优于现有的最佳单模态条件图像合成方法。

生成效果:

de552d4927b05f7bf43921749a36cb87.png

解读

Product-of-Experts

我们的目标是训练一个单一的生成模型,该模型可以捕获以任意模态子集为条件的图像分布。在本文中,我们考虑了四种不同的模式,包括文本、语义分割、草图和样式参考。直观地说,每个输入模态都会增加一个合成图像必须满足的约束。满足所有约束的图像集合是集合的交集,每个集合都满足一个单独的约束。如下图所示,我们通过假设联合条件概率分布与单条件概率分布的乘积成比例来对此进行建模。在此设置下,要使产品分布在某个区域具有高密度,则每个单独的分布都需要在该区域具有高密度,从而满足每个约束。这也被称为 product-of-experts。

31eeaef4e013ec4abfc973a6772005c3.png


Generator Design

下图展示了我们的生成器的架构。我们将每种模态编码为一个特征向量,然后使用专家产品在 Global PoE-Net 中进行聚合。解码器使用 Global PoE-Net 的输出生成图像,并跳过分割和草图编码器的连接。 

4abb6a6e3441d621f6ef2435d11c0370.png

生成器架构。查看论文获取架构的更多细节。

Discriminator Design

我们提出了一种多模态投影判别器,它将投影判别器推广到处理多个条件输入。与计算图像嵌入和条件嵌入之间的单个内积的标准投影判别器不同,我们为每个输入模态计算一个内积并将它们加在一起以获得最终损失。

5541c88d9bd9b1a867afa650fc21f685.png

标准投影判别器(左)和本文的多模态投影判别器(右)之间的比较。

Results

当使用单一输入模态进行测试时,PoE-GAN 优于以前专门为该模态设计的 state-of-the-art方法,例如分割到图像的方法(SPADE、OASIS)和文本到图像的合成方法 (DF-GAN,DM-GAN + CL)。

3be7ccef65699cdd4e4d020bcc3d0a18.png

e34c9914957ed002a0dc0e248dbb2681.png

60de50c5bcb263dae7295f08387e121a.png

2666e18d46bde7989e483df79275c425.png

ef1333c0109d6053908dd0456c19d112.png

badeeda81f7ad1be40a4d12782f2112e.png

当以任意模态子集为条件时,PoE-GAN 可以产生不同的输出图像。下面我们展示了来自 PoE-GAN 的随机样本,这些样本基于风景图像数据集上的两种模式(文本 + 分割、文本 + 草图和分割 + 草图)。

2856d8b09d7db8b694b8022c307c109c.png

233627fb357d560e7d6a76ae0ad537f6.png

207f5029eee0c848d87bf05d0a14e0a4.png

下面我们展示了来自 PoE-GAN 的随机样本,这些样本基于两种模式,包括样式参考(分割 + 样式、文本 + 样式和草图 + 样式)。

70ef05919e89da05368ee3d83b01b718.png

b061c93ea14647b8f8713149ba33f9db.png

3b769faffe08027d82ffe2090b9a91dd.png

在没有输入模式的情况下,PoE-GAN 成为无条件生成模型。以下是由 PoE-GAN 无条件生成的未经处理的样本。

7a7d2bd9e7c918acab7307f8e0223297.png

fc239aa2751abab892c526a66def8259.png

1610509f07d722e0df5fa2f513f407e9.png

好的,今天的分享就到这里,更多细节查看论文

推荐阅读

科研人必备新神器,ReadPaper!爱了真好用!

CVPR2021 最具创造力的那些工作成果!或许这就是计算机视觉的魅力!

百变冰冰!手把手教你实现CVPR2021最新妆容迁移算法

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值