RealNVP与Glow：流模型的传承与升华

最新推荐文章于 2025-04-04 15:55:52 发布

PaperWeekly

最新推荐文章于 2025-04-04 15:55:52 发布

阅读量7.7k

点赞数 14

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/82112222

版权

本文详细介绍了RealNVP和Glow模型，这两个是NICE模型的升级版，专注于流模型在图像处理中的应用。RealNVP引入了仿射耦合层和多尺度结构，解决了NICE模型的局限性，而Glow在此基础上采用了可逆1x1卷积，简化了模型结构。文中还讨论了Glow的Actnorm层和在不同任务中的性能表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

话在开头

在上一篇文章细水长flow之NICE：流模型的基本概念与实现中，我们介绍了 flow 模型中的一个开山之作：NICE 模型。从 NICE 模型中，我们能知道 flow 模型的基本概念和基本思想，最后笔者还给出了 Keras 中的 NICE 实现。

本文我们来关心 NICE 的升级版：RealNVP 和 Glow。

Glow 模型的采样演示：

精巧的flow

不得不说，flow 模型是一个在设计上非常精巧的模型。总的来看，flow 就是想办法得到一个 encoder 将输入 x 编码为隐变量 z，并且使得 z 服从标准正态分布。得益于 flow 模型的精巧设计，这个 encoder 是可逆的，从而我们可以立马从 encoder 写出相应的 decoder（生成器）出来，因此，只要 encoder 训练完成，我们就能同时得到 decoder，完成生成模型的构建。

为了完成这个构思，不仅仅要使得模型可逆，还要使得对应的雅可比行列式容易计算，为此，NICE 提出了加性耦合层，通过多个加性耦合层的堆叠，使得模型既具有强大的拟合能力，又具有单位雅可比行列式。就这样，一种不同于 VAE 和 GAN 的生成模型——flow 模型就这样出来了，它通过巧妙的构造，让我们能直接去拟合概率分布本身。

待探索的空间

NICE 提供了 flow 模型这样一种新的思路，并完成了简单的实验，但它同时也留下了更多的未知的空间。flow 模型构思巧妙，相比之下，NICE 的实验则显得过于粗糙：只是简单地堆叠了全连接层，并没有给出诸如卷积层的用法，论文虽然做了多个实验，但事实上真正成功的实验只有 MNIST，说服力不够。

因此，flow 模型还需要进一步挖掘，才能在生成模型领域更加出众。这些拓展，由它的“继承者”RealNVP 和 Glow 模型完成了，可以说，它们的工作使得 flow 模型大放异彩，成为生成模型领域的佼佼者。

RealNVP

这部分我们来介绍 RealNVP 模型，它是 NICE 的改进，来自论文 Density estimation using Real NVP [1]。它一般化了耦合层，并成功地在耦合模型中引入了卷积层，使得可以更好地处理图像问题。更进一步地，它还提出了多尺度层的设计，这能够降低计算量，通过还提供了强大的正则效果，使得生成质量得到提升。至此，flow 模型的一般框架开始形成。

后面的 Glow 模型基本上沿用了 RealNVP 的框架，只是对部分内容进行了修改（比如引入了可逆 1x1 卷积来代替排序层）。不过值得一提的是，Glow 简化了 RealNVP 的结构，表明 RealNVP 中某些比较复杂的设计是没有必要的。因此本文在介绍 RealNVP 和 Glow 时，并没有严格区分它们，而只是突出它们的主要贡献。

仿射耦合层

其实 NICE 和 RealNVP 的第一作者都是 Laurent Dinh，他是 Bengio 的博士生，他对 flow 模型的追求和完善十分让我钦佩。在第一篇 NICE 中，他提出了加性耦合层，事实上也提到了乘性耦合层，只不过没有用上；而在 RealNVP 中，加性和乘性耦合层结合在一起，成为一个一般的“仿射耦合层”。

640

这里的 s,t 都是 x1 的向量函数，形式上第二个式子对应于 x2 的一个仿射变换，因此称为“仿射耦合层”。

仿射耦合的雅可比矩阵依然是一个三角阵，但对角线不全为 1，用分块矩阵表示为：

640

很明显，它的行列式就是 s 各个元素之积。为了保证可逆性，一般我们约束 s 各个元素均大于零，所以一般情况下，我们都是直接用神经网络建模输出 log s，然后取指数形式 640 。

注：从仿射层大概就可以知道 RealNVP 的名称来源了，它的全称为“real-valued non-volume preserving”，强行翻译为“实值非体积保持”。相对于加性耦合层的行列式为 1，RealNVP 的雅可比行列式不再恒等于 1，而我们知道行列式的几何意义就是体积（请参考《新理解矩阵5：体积=行列式》[2]），所以行列式等于 1 就意味着体积没有变化，而仿射耦合层的行列式不等于 1 就意味着体积有所变化，所谓“非体积保持”。

随机打乱维度

在 NICE 中，作者通过交错的方式来混合信息流（这也理论等价于直接反转原来的向量），如下图（对应地，这里已经换为本文的仿射耦合层图示）：

640