今天带大家深入了解一些经典的影像生成方法。今天会提到的包括Variational Autoencoder(变分自编码器,简称VAE)、Flow-based Model(流基模型),以及现在大家耳熟能详的Diffusion Model(扩散模型),还有Generative Adversarial Network(生成对抗网络,简称GAN)。像Stable Diffusion这类知名模型,用的核心技术就是Diffusion Model。
如果你们在论文或博客里看到一种生成方式——从一大堆杂讯开始,慢慢减少杂讯,最后生成高清图像——那通常说的就是Diffusion Model。虽然现在Diffusion Model用得最多,但我想多介绍几个经典方法,帮大家搞清楚影像生成真正的难点,以及这些难点是怎么被一步步克服的。
一、影像生成的核心痛点:文字描述的局限性
我们先从基础架构说起。现在生成图片或影像时,最常用的神经网络架构是Transformer,过去则更多用CNN。Transformer的概念其实很简单:给一段文字,它生成一排图像补丁(patch),再把这些补丁组合成完整图片。
但训练时会遇到一个棘手的问题。比如我们用"一只奔跑的狗"做训练数据,会发现这个描述对应的图片千差万别:可以是草原上的哈士奇,也可以是都市里的柴犬。对Transformer来说,这种情况就像老板时而让你往东、时而让你往西——它会无所适从。你单独让它生成哈士奇或柴犬都能做到,但当同样的文字指令对应不同输出时,它就会混乱,最后可能生成各种奇怪的混种图像。
根本原因在于,文字往往无法完整描述图像的所有细节。那该怎么解决这个问题呢?答案藏在接下来要讲的这些经典模型里。
二、经典影像生成模型解析
(一)VAE:用潜在向量补全描述缺口
VAE是由Kingma和Welling于2013年提出的经典生成模型,它的核心思路是给模型补充"脑补信息"。既然文字描述不完整,那我们就主动把缺失的信息加进去——比如不只是"奔跑的狗",而是明确"草原上的哈士奇"或"都市里的柴犬"。
但这些额外标注从哪来?总不能全靠人工标注吧。VAE的巧妙之处在于,它把"信息抽取"和"图像生成"两个模型绑在一起训练,形成了Encoder-Decoder(编码器-解码器)架构:
- Encoder(编码器):相当于信息抽取模型,输入图片和文字描述,抽出文字没提到的隐藏信息。但它输出的不是文字,而是一串数值组成的"潜在向量"——比如第一个维度代表狗的品种,第二个维度代表背景环境。
 - Decoder(解码器):就是图像生成模型,输入文字描述和Encoder抽出的潜在向量,生成图片。
 
这两个模型的共同目标是:让Decoder生成的图片和输入的原始图片越像越好。至于Encoder具体抽了什么信息,我们不用管,只要能帮Decoder生成准确图片就算成功。
那实际生成图片时,没有原始图片供Encoder抽信息怎么办?很简单——随机采样!就像掷骰子一样,随机生成一个潜在向量作为"脑补信息",再结合文字描述让Decoder生成图片。这就是VAE能生成多样化图像的关键。
(二)Flow-based Model:可逆变换的智慧
Flow-based Model和VAE非常像,但它有个巧妙的改进:既然Encoder是从图片抽向量,Decoder是从向量生成图片,两者做的是相反的事,那能不能只训练一个模型?
Flow模型的答案是"可以"——它训练一个具有可逆变换(invertible transformation)的Decoder,这个Decoder的反函数直接就能当Encoder用。这种可逆性还能精确计算数据的对数似然,这是它的一大优势。
文献里常把Flow模型的潜在向量叫做"noise"(杂讯),但这其实是个误导——这些向量里藏着关键信息。有个真实实验能说明这一点:把一堆"臭脸"图片输入Encoder,得到的向量平均后就是"臭脸特征向量";同理可得"笑脸特征向量"。如果想让一张微笑的脸笑得更开心,只要在它的潜在向量里减掉臭脸特征、加上笑脸特征,再用Decoder生成就行。通过调整这些向量,我们能直接控制图片输出效果。
(三)Diffusion Model:循序渐进的去噪艺术
Diffusion Model的Decoder输入输出和前两个模型一样,都需要潜在向量(杂讯)和文字描述,但它的工作方式完全不同——反复用同一个Decoder做一件简单的事:去噪(denoise)。
生成过程就像雕琢璞玉:一开始给一个纯杂讯,结合文字描述输入去噪模块,第一次去噪只能去掉一点杂讯,可能只看出模糊的轮廓;把结果再丢回去噪模块,第二次去噪会更清晰;这个过程重复500到1000次,最后就能得到清晰的图片。
这种方法的痛点很明显:去噪次数太多,速度慢。所以现在的研究趋势就是减少去噪次数,有人尝试10次、5次,甚至想做到一次去噪就能生成清晰图像。
Diffusion Model的训练也很聪明:我们没有带杂讯的真实数据,就自己造——给干净图片加杂讯,从少到多一直加到完全看不出原图。然后教模型:给你一张带杂讯的图和文字描述,还原出加杂讯前的样子。现在的Diffusion Model大多和Transformer结合,形成"Diffusion Transformer"——每次去噪都由Transformer完成,反复迭代后得到干净的图像补丁,再组合成最终图片。
值得一提的是,Diffusion Model没有专门训练Encoder:给图片加杂讯的过程(称为forward process)就相当于其他模型Encoder的工作,而Decoder做的去噪过程就是reverse process(反向过程)。
(四)GAN:用对抗训练做质量把关
GAN和前面几个模型本质不同,它更像一个"质量外挂"。它解决的核心问题还是:同一段文字对应太多图片,模型不知道该学哪一个。
GAN的思路是先训练一个"裁判"——Discriminator(判别器),它的工作和CLIP很像:输入图片和文字,评价两者匹配度高低。但训练"裁判"必须有好有坏的例子:好例子是真实图片配对应文字,坏例子就用一个差的生成模型造——比如让它画"奔跑的狗",画出抽象的、三只脚的猫,这些就是坏例子。
有了"裁判",再训练"选手"——Generator(生成器,相当于其他模型的Decoder)。Generator不用跟真实图片学,只要能生成让Discriminator打高分的图片就算成功。训练时两者交替升级:Generator生成图片骗Discriminator,Discriminator升级后更难被骗,倒逼Generator进步。
有人会问:GAN的Generator还需要杂讯吗?理论上可以不用——有Discriminator的评价,模型能自己学会生成多样化图像。而且GAN和RLHF很像:Discriminator就相当于RLHF里的Reward Model(奖励模型),区别只是Reward Model靠人工标注好坏,而Discriminator靠"真实图好、生成图坏"的假设自我学习。
所以问GAN和Diffusion Model谁更强,本身就是个伪命题。GAN是个外挂,能挂在VAE、Flow模型或Diffusion Model上,帮它们提升生成质量。
这些模型的发展有清晰的时间线:VAE在2013年被提出,GAN在2014年出现后,2018年的研究开始深入其细节,Flow-based Model在2019年成为热点,而Diffusion Model则在2023年成为主流。它们背后的数学原理很复杂,我的YouTube频道里有专门视频讲解,感兴趣的朋友可以去看。
三、未来方向:互动式影像生成
现在AI能生成静态或固定动态的影像,但能不能让人类实时操控这些影像呢?比如看到一个"女士在东京街头行走"的视频,能不能用方向键控制她走哪条路,就像玩开放世界游戏一样?
还真有团队在做这件事——有篇论文叫《Genie: Generative Interactive Environment》,专门研究这个方向。不过先打个预防针:它现在只能做2D横向卷轴游戏,还不是3D开放世界。
Genie的工作原理
Genie的核心是"让动作影响生成结果":输入当前画面和你的操作(比如按右方向键),它输出下一个画面;这个新画面再作为输入,配合新的操作生成下一张,循环下去就能玩游戏了。
训练的难点在于:我们能从网上找到大量游戏视频,但不知道每帧对应的玩家操作。Genie用了和VAE类似的思路——训练一个Latent Action Model(潜在行动模型),让它从前后两帧的差异反推玩家可能按了什么键。
具体来说:给潜在行动模型输入前一帧和后一帧,它猜一个"潜在动作"(用1-8的编号代表不同操作);把这个动作和前一帧输入给生成模型,让它输出后一帧;如果输出和真实后一帧越像,说明猜的动作越准。这些动作是模型猜出来的,所以叫"latent action"(潜在行动)。
有趣的是,这些编号对应的具体操作不用管——比如输入一串指令6676765527,不管在哪个画面,都会让人物往右移动、画面往左下移,显然这对应了"右跳"的操作。
Genie的应用想象
有了Genie,创造游戏变得特别简单:给一张小孩子的涂鸦,就能当游戏初始画面开始玩;给一张雷神索尔的照片,按方向键就能让他跳起来。
这还不止于游戏。比如驾驶培训:未来不用去驾训班,在电脑上用假方向盘操控——转方向盘,屏幕就生成对应的道路画面,而且是无限延伸的开放世界,比固定场景的赛车游戏实用多了。
四、总结
今天我们讲了四个经典影像生成模型:VAE用潜在向量补全描述缺口,Flow模型靠可逆变换简化架构,Diffusion Model以迭代去噪实现高清生成,GAN用对抗训练把关质量。它们从解决"生成多样性"到"提升质量",一步步推动影像生成技术的进步。而Genie则展示了下一个方向——让人类和生成的影像实时互动。
这些技术的核心都是解决"信息缺失"的问题:要么补全信息,要么用对抗或迭代的方式绕开信息缺失的障碍。未来随着模型效率的提升,相信我们能看到更真实、更可控的生成影像,甚至进入完全由AI生成的互动世界。
如果大家想深入了解某个模型的数学原理或实现细节,欢迎去我的YouTube频道看专门的讲解视频。谢谢大家!
                  
                  
                  
                  
                            
                            
      
          
                
                
                
                
              
                
                
                
                
                
              
                
                
                    
              
            
                  
					2271
					
被折叠的  条评论
		 为什么被折叠?
		 
		 
		
    
  
    
  
					
					
					


            