【论文笔记】Multimodal Conditional Image Synthesis with Product-of-Experts GANs

来自γ星的赛亚人

已于 2022-02-28 22:52:07 修改

阅读量1k

点赞数 5

分类专栏：论文笔记文章标签：网络深度学习神经网络生成对抗网络

于 2022-02-23 15:28:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58678659/article/details/123068211

版权

论文笔记专栏收录该内容

47 篇文章 7 订阅

订阅专栏

论文标题：Multimodal Conditional Image Synthesis with Product-of-Experts GANs

论文链接：http://arxiv.org/abs/2112.05130

论文代码：https://deepimagination.cc/PoE-GAN/

发表时间：2021年12月

Abstract

现有的条件图像合成框架基于单一模态中的用户输入生成图像，例如文本、分割、草图或样式参考。它们通常无法在可用时利用多模式用户输入，这降低了它们的实用性。为了解决这一限制，我们提出了专家产品生成对抗网络 (PoE-GAN) 框架，该框架可以合成以多种输入模式或其任何子集为条件的图像，甚至是空集。 PoE-GAN 由专家产品生成器和多模态多尺度投影鉴别器组成。通过我们精心设计的训练方案，PoE-GAN 学会了合成高质量和多样性的图像。除了提高多模态条件图像合成的最新技术水平外，PoE-GAN 在单模态条件下进行测试时也优于现有的最佳单模态条件图像合成方法。

Personal understanding

1、PoE-GAN架构输入Text、Segmentation、Sketch、Style四种模态的数据

2、进入Global PoE-Net网络进行融合

3、融合输出的特征向量，语义分割特征向量，草图特征向量作为解码器的输入，生成图片

4、生成的图片进入判别器，进行判别

Method

1、先进行四种模态的特征提取，以下为四种模态的特征提取方法

Text：预训练---MLP MLP可以理解为全连接层，主要解决非线性问题。

Segmentation：卷积操作。

Sketch：卷积操作。

Style：残差。

2、对这四种模态的特征向量，进行预处理

为什么要进行预处理，这里举个例子，苹果和iphone手机就是两种不同的事物，毫无关联，但是真的没有联系么？答案是否定的，它们之间一定有内在联系，（比如说，人吃苹果补充能量，有能量才有精力使用手机，进行工作。）这个例子，不太恰当，但是足够理解我讲的上句话，作者使用MLP架构寻找非线性关系，就是将四种模态的数据，转换成同一种模态，进行融合。

四个MLP架构处理这四个模态的特征向量，为什么输出是µ和ó呢？因为还是GAN生成器架构构建决定的，小白同学自己补一下知识点，如果有时间会详细出一篇，GAN架构的理解。

3、预处理之后的特征向量

预处理之后的特征向量正式进入了PoE-Net进行融合操作，这里的融合可以理解成乘法操作，具体操作是经过一系列的数学公式推导

这是原文，有想要详细了解的大佬，还是自己看以下原文最好。这里提供个人简单理解

PoE-Net使用4个MLP中提取的特征向量预测了高斯分布，然后计算高斯数的乘积z0，然后在使用另一个MLP将z0转换成特征向量w

经过PoE-Net的特征向量输出，µ和ó拼接成特征向量 z0， z0在进入MLP中进行非线性变换，输出的特征向量w，最终成为编码器的输出。

这里有个小知识点，问什么是直接拼接成z0，还是上文提到的，这个是GAN网络生成器的架构搭建决定的，不懂的同学，补充一下知识点，这里就可以看懂了。

4、使用特征向量w，生成器输出一张图片

5、这张图片送到判别器，进行判别

解码器主要有四部分构成：Upsample、卷积、LG-AdalN、Local PoE-Net

Upsample和卷积就不多说了

判别器有三个输入，分别是生成器的输出previous output、Segmentation和Sketch的features

previous output---Upsample---Conv---LG-AdalN---Conv---LG-AdalN---Add

Segmentation和Sketch features进入Local PoE-Net

看架构图还是很清晰的

LG-AdalN架构如图：

Instance Norm（IN）属于一种正则化方式，很适用于GAN

Local Affine和Global Affine是一种仿射关系

Local PoE-Net架构如图：

这里的Product-of-Experts架构和编码器的融合是一样的，只不过参数是另外一组参数，寻找高斯数乘积。

后面就是一些实验部分了，效果是目前最好的，就不介绍实验部分了，有兴趣的同学可以自己查看原文。

我认为这篇文章最重要的一句话就是：

PoE-GAN 在单模态条件下进行测试时也优于现有的最佳单模态条件图像合成方法

来自γ星的赛亚人

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】Multimodal Conditional Image Synthesis with Product-of-Experts GANs

论文标题：Multimodal Conditional Image Synthesis with Product-of-Experts GANs论文链接：http://arxiv.org/abs/2112.05130论文代码：https://deepimagination.cc/PoE-GAN/项目地址：Abstract现有的条件图像合成框架基于单一模态中的用户输入生成图像，例如文本、分割、草图或样式参考。它们通常无法在可用时利用多模式用户输入，这降低了它们的实用性。为了解决这一限制..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

来自γ星的赛亚人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。