©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 科学空间
研究方向 | NLP、神经网络
不知道还有没有读者对这个系列有印象?这个系列取名“细水长 flow”,主要介绍 flow 模型的相关工作,起因是当年(2018 年)OpenAI 发布了一个新的流模型 Glow,在以 GAN 为主流的当时来说着实让人惊艳了一番。
但惊艳归惊艳,事实上在相当长的时间内,Glow 及后期的一些改进在生成效果方面都是比不上 GAN 的,更不用说现在主流的扩散模型了。
不过局面可能要改变了,前段时间的论文《Normalizing Flows are Capable Generative Models》[1] 提出了新的流模型 TARFLOW,它在几乎在所有的生成任务效果上都逼近了当前 SOTA,可谓是流模型的“满血”回归。
写在前面
这里的流模型,特指 Normalizing Flow,是指模型架构具有可逆特点、以最大似然为训练目标、能实现一步生成的相关工作,当前扩散模型的分支 Flow Matching 不归入此列。
自从 Glow 闪耀登场之后,流模型的后续进展可谓“乏善可陈”,简单来说就是让它生成没有明显瑕疵的 CelebA 人脸都难,更不用说更复杂的 ImageNet 了,所以“细水长 flow” 系列也止步于 2019 年的《细水长 flow 之可逆 ResNet:极致的暴力美学》。
不过,TARFLOW 的出现,证明了流模型“尚能一战”,这一次它的生成画风是这样的:
▲ TARFLOW 的生成效果
相比之下,此前 Glow 的生成画风是这样的:
▲ Glow 的生成效果
Glow 演示的还只是相对简单的人脸生成,但瑕疵已经很明显了,更不用说更复杂的自然图像生成了,由此可见 TARFLOW 的进步并不只是一星半点。从数据上看,它的表现也逼近模型模型的最佳表现,超过了 GAN 的 SOTA 代表 BigGAN:
▲ TARFLOW 与其他模型的定量对比
要知道,流模型天然就是一步生成模型,并且不像 GAN 那样对抗训练,它也是单个损失函数训练到底,某种程度上它的训练比扩散模型还简单。所以,TARFLOW 把流模型的效果提升了上来,意味着它同时具备了 GAN 和扩散模型的优点,同时还有自己独特的优势(可逆、可以用来估计对数似然等)。
模型回顾