细水长flow之f-VAEs:Glow与VAEs的联姻

本文介绍了f-VAEs,这是一种结合变分自编码器(VAEs)和流模型(如Glow)的新型生成模型。f-VAEs通过流模型来拟合更灵活的后验分布,解决了VAEs生成图像模糊的问题,并减少了对大型耦合层的依赖,从而在较小的网络规模下达到与Glow相当的生成效果。实验表明,f-VAEs在相同规模下比VAEs和Glow有更快的收敛速度和更清晰的图像生成质量。
摘要由CSDN通过智能技术生成

640


作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP,神经网络

个人主页丨kexue.fm


前言:这篇文章是我们前几天挂到 arXiv 上的论文的中文版。在这篇论文中,我们给出了结合流模型(如前面介绍的 Glow)和变分自编码器的一种思路,称之为 f-VAEs。理论可以证明 f-VAEs 是囊括流模型和变分自编码器的更一般的框架,而实验表明相比于原始的 Glow 模型,f-VAEs 收敛更快,并且能在更小的网络规模下达到同样的生成效果。


■ 论文 | f-VAEs: Improve VAEs with Conditional Flows

■ 链接 | https://www.paperweekly.site/papers/2313

■ 作者 | Jianlin Su / Guang Wu


近来,生成模型得到了广泛关注,其中变分自编码器(VAEs)和流模型是不同于生成对抗网络(GANs)的两种生成模型,它们亦得到了广泛研究。然而它们各有自身的优势和缺点,本文试图将它们结合起来。


640

 由f-VAEs实现的两个真实样本之间的线性插值


基础


设给定数据集的证据分布为640,生成模型的基本思路是希望用如下的分布形式来拟合给定数据集分布:


640


其中 q(z) 一般取标准高斯分布,而 q(x|z) 一般取高斯分布(VAEs 中)或者狄拉克分布(GANs 和流模型中)。理想情况下,优化方式是最大化似然函数 E[logq(x)],或者等价地,最小化640


由于积分可能难以显式计算,所以需要一些特殊的求解技巧,这导致了不同的生成模型。其中,VAE 引入后验分布 p(z|x),将优化目标改为更容易计算的上界640。众所周知,VAE 有着收敛快、训练稳定等优点,但一般情况下生成图像存在模糊等问题,其原因我们在后面会稍加探讨。


而在流模型中,q(x|z)=δ(x−G(z)),并精心设计 G(z)(通过流的组合)直接把这个积分算出来。流模型的主要组件是“耦合层”:首先将 x 分区为两部分 x1,x2,然后进行如下运算:


640


这个变换是可逆的,逆变换为: 


640


它的雅可比行列式是640。这种变换我们通常称之为“仿射耦合”(如果 s(x1)≡1,那么通常称为“加性耦合”),用 f 表示。通过很多耦合层的组合,我们可以得到复杂的非线性变换,即 G=f1∘f2∘⋯∘fn,这就是所谓的“(无条件)流”。


由于直接算出来积分,因此流模型可以直接完成最大似然优化。最近发布的 Glow 模型显示出强大的生成效果,引起了许多人的讨论和关注。但是流模型通常相当庞大,训练时间长(其中 256 x 256 的图像生成模型用 40 个 GPU 训练了一周,参考这里 [1]这里 [2]),显然还不够友好。


分析


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值