DivCo: Diverse Conditional Image Synthesis viaContrastive Generative Adversarial Network

一、前置知识

条件生成对抗网络(cGANs):条件生成对抗网络(cGAN) - 知乎 (zhihu.com)

对比学习:对比学习(Contrastive Learning),必知必会 - 知乎 (zhihu.com)

二、关于本文

目前研究所处瓶颈及其所面对的问题:

(a)两个不同类别的分布,其中每个类别都是高斯混合模型。

(b)使用潜在回归损失( Latent regression loss:鼓励图像和潜在空间之间的可逆映射)学习到的结果,可以看出误差较大。

(c)Mode seeking loss :通过最大化两个任意图像的不相似性来提高生成多样性,但从上图生成的结果来看,当两个采样的潜在编码(潜在分布特征)之间的距离可能很接近,它们的合成图像不仅被很好的区分,而且根据它最大近似分布的特点学习到新的分布很容易变的偏差极大,也就是说,生成结果只取决于潜在编码(潜在分布特征)而忽略了条件输入。

(d)由本文提出的潜在增广对比损失的学习分布生成的样本,它表现出了极强的无偏差分布,该分布适当地依赖于条件输入和潜在编码(潜在分布特征)。

 简单的总结本文所作出的工作:本文工作的核心重点在于,在GAN生成网络开始进行生成工作之前,通过加入类标签的有监督方式进行初步分类,将输入图片的感兴趣部分称为‘positive’或者’正‘区域,同时非感兴趣区域称为‘negative'或者负区域。并近似的将正区域中的点形成一个个的超球体,超球体内正相关超球体外负相关。将对比学习的重点侧重于我们感兴趣的超球体内。

而在此之前cGan的工作其实主要集中于图片的像素级区域的对比与学习,引入超球体的概念是一种增强学习的过程。即插即用也是本文提出方法的一个理论关键点。

具体来看:

 应用方法part1:该部分主要完成特征图像的生成,上图中第一部分完成对原始图片中感兴趣部分的混合生成,具体来说z∼N(0,1)即该点所处位置为“P”or"N",之后通过第一次生成得到\widehat{x}这一批的类加权图像,之后使用这批类加权图像生成我们GAN网络的特征图片。(图片到图片,翻译为我们想要的目标特征图片),注意在这部分中直接使用了生成器中的编码层作为辅助编码器,即G_{enc}G编码层使用相同的代码。

应用方法part2:该部分主要完成类标签的生成,对原始类标签引入超球体的积极或消极的感兴趣区域对比筛别机制,生成新的条件类标签(类标签-条件生成任务的类标签)。注意:由于类条件图像生成任务不需要生成器中编码层,因此我们使用条件判别器的赋值层,这些赋值层也能够编码判别特征。

 之后的操作就是cGANs的正常操作。

cGANs结构图:

 在理想条件下,生成图片会同时受到类标签与图片潜在分布的多重影响。

三、具体损失公式解读

传统GAN的损失公式:

本文区别于传统GAN引入了条件label即y,则它的损失公式为:

 

 当然这部分的损失只控制生成图片跟贴近于原始图片,为了体现多样性本文提出了第二个损失函数。

 

通过对之前引入超球体后生成的特征图片进行对比并计算损失, 这就控制了超球体内尽可能相似,超球体外尽可能不相似。使用这种新的损失函数作为正则化项。

上面公式中的<\cdot ,\cdot >即内积被定义为衡量相似性的手段。

最终的损失函数表达为:

对于映射过程中产生的损失:

 

扩展到本算法中后:

 

 对比传统的MSGAN牺牲真实性换取多样性,BicycleGAN牺牲多样性换取真实性,本文提出的方法在真实性于多样性之间做出了一种较好的平衡。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
"noisytwins: class-consistent and diverse lmage generation through stylegans" 是关于通过 StyleGANs 实现类别一致和多样化图像生成的研究。 StyleGAN 是一种生成对抗网络 (GAN) 的变种,用于生成逼真的图像。它通过学习图像的潜在空间表示来生成图像,其中每个点都对应一个唯一的图像。在这项研究中,noisytwins 提出了一种改进的 StyleGAN 模型,旨在生成类别一致且具有多样性的图像。 传统的 StyleGAN 模型通常只能生成与训练数据集类别相似的图像,而无法产生跨类别的多样性。对于一个类别,它通常只能生成该类别中的某一个具体样式的图像。然而,noisytwins 通过引入噪音向量,并通过控制这些向量的方式,将该模型扩展至能够在一个类别内生成多种样式的图像。 通过这种方式,noisytwins 的模型能够生成以同一类别为主题的图像,同时在样式上具有多样性。例如,如果我们以猫为类别,传统的 StyleGAN 模型只能生成某一种具体颜色和纹理的猫图像,而 noisytwins 的模型可以生成多种颜色和纹理的猫图像。 这项研究的意义在于扩展了现有的图像生成技术的应用范围。通过实现类别一致且具有多样性的图像生成,noisytwins 的模型可以在许多领域中有重要的应用,如计算机游戏开发、虚拟现实技术以及艺术创作等。 总之,"noisytwins: class-consistent and diverse lmage generation through stylegans" 是一篇关于利用改进的 StyleGANs 实现具有类别一致性和多样性的图像生成的研究,该研究扩展了现有的图像生成技术,并在多个领域中有广泛的应用潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值