视觉生成模型的重要发展节点

1.GAN(2014年6月)
核心机制:生成器(G)与判别器(D)的“博弈对抗”。G通过随机噪声生成假样本,D判断样本真假,两者交替优化。
突破点:首次实现高质量图像生成(如逼真人脸),解决传统模型无法生成新样本的问题。
局限:训练不稳定(如模式坍塌),需精细调参;生成器可能陷入“欺骗陷阱”。
改进方向:WGAN( Wasserstein GAN)引入Earth-Mover距离,缓解训练波动;CycleGAN实现跨域图像转换。


2.AE(自编码器,1986年)
核心机制:编码器压缩数据为低维表示,解码器重构原始数据。
用途:数据压缩、特征提取(如去噪)。
局限:仅能重构输入,无法生成新样本;隐变量连续且无概率解释。


3.VAE(变分自编码器,2013年12月)
核心机制:隐变量视为概率分布(如高斯分布),通过变分下界(ELBO)平衡重构损失与分布匹配。
突破点:支持隐变量推理与生成新样本,数学理论完备。
局限:生成图像模糊(因KL散度正则化限制隐变量灵活性)。


4.VQ-VAE(2017年12月)
核心机制:向量量化(Vector Quantization)将连续隐变量离散化,提升模型对复杂数据的建模能力。
应用:结合自回归模型(如PixelCNN)生成高质量语音和图像,为扩散模型铺路。


5.Diffusion Model(扩散模型,2015年3月)
核心机制:逐步添加噪声将数据变为噪声,再逆向去噪恢复数据,理论源自非平衡热力学。
优势:训练稳定,生成样本多样性高;但早期计算成本高、速度慢。


6.DDPM(去噪扩散概率模型,2020年6月)
核心机制:马尔可夫链逐步去噪,引入重参数化技巧简化训练目标。
突破点:成为扩散模型主流实现,生成质量接近GAN,奠定后续改进基础。


7.Diffusion Models Beat GANs(2021年5月)
关键进展:通过改进网络结构(如UNet)和训练策略(Classifier Guidance),扩散模型在ImageNet等数据集上首次超越GAN。
意义:确立扩散模型为生成领域SOTA方法,推动文本-图像生成等应用。


8.DALL·E 2(2022年4月)
核心机制:结合CLIP多模态模型与扩散模型,实现文本到图像的高质量生成。
应用:支持多模态条件生成(如文本+图像编辑),推动AIGC落地(如MidJourney、Stable Diffusion)。


9.Latent Diffusion Model(潜在扩散模型,2022年7月)
核心机制:在低维潜在空间进行扩散,显著降低计算成本(如Stable Diffusion)。
意义:消费级GPU可运行,推动开源社区发展,成为当前主流生成工具。


总结与趋势

  • 技术演进:从AE/VAE的概率建模,到GAN的对抗训练,再到扩散模型的逐步优化,生成模型逐步解决训练稳定性、生成质量和计算效率问题。
  • 应用趋势:扩散模型主导AIGC,结合多模态条件生成(如文本、图像)推动实用化;未来方向包括提升可控性、降低推理成本、拓展视频生成等跨模态应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值