Diffusion models VS GANs——图像合成（Image synthesi）领域的下一代模型

最新推荐文章于 2025-02-02 15:29:53 发布

孟大师

最新推荐文章于 2025-02-02 15:29:53 发布

阅读量6.3k

点赞数 7

文章标签：图像处理人工智能计算机视觉机器学习

原文链接：https://analyticsindiamag.com/diffusion-models-vs-gans-which-one-to-choose-for-image-synthesis/

版权

翻译自Diffusion Models Vs GANs: Which one to choose for Image Synthesis

Diffusion models（扩散模型）和GAN（生成对抗网络）都在图像、视频和语音生成领域得到了广泛的应用，引发了关于什么产生更好结果的争论。

图像合成任务通常由深度生成模型（如GAN、VAE 和自回归模型）执行。生成对抗网络 (GAN) 由于其产生的输出质量，在过去几年中一直是备受关注的研究领域。另一个有趣的研究领域是扩散模型。它们都在图像、视频和语音生成领域得到了广泛的应用。自然地，这导致了关于什么产生更好结果的持续辩论——扩散模型或GAN。

GAN 是一种算法架构，它使用两个相互对抗的神经网络来生成新合成的数据实例，这些实例可以传递给真实数据。扩散模型越来越受欢迎，因为它们提供了训练稳定性以及图像和音频生成的质量结果。

扩散模型的架构

谷歌解释了扩散模型的工作原理。它们通过逐渐添加高斯噪声来破坏训练数据。这会删除数据中的细节，直到它变成纯噪声。然后，它训练一个神经网络来逆转破坏过程，即去噪。谷歌补充说：“运行这种反向损坏过程，通过逐渐去噪，从纯噪声中合成数据，直到产生干净的样本。”

GAN 架构

GAN 有两个部分：

生成器：它学会生成似是而非的数据。
鉴别器：鉴别器决定它审查的每个数据实例是否属于实际的训练数据集。它还惩罚生成器产生难以置信的结果。

生成器和鉴别器都是神经网络。生成器输出直接连接到鉴别器输出。在反向传播过程中，鉴别器的分类给出了生成器用来更新其权重的信号。

GAN 的一些常见问题

尽管 GAN 在大量模型中构成了图像合成的框架，但它们确实存在一些研究人员正在积极研究的缺点。正如谷歌所指出的，其中一些是：

梯度消失：如果判别器太好，生成器训练可能会由于梯度消失的问题而失败。

模式崩溃：如果生成器产生一个特别合理的输出，它可以学习只产生那个输出。如果发生这种情况，鉴别器的最佳策略是学会始终拒绝该输出。谷歌补充道，“但如果下一代鉴别器陷入局部最小值并且没有找到最佳策略，那么下一次生成器迭代就很容易为当前鉴别器找到最合理的输出。”

收敛失败：GANs 也有这个频繁的收敛问题。

扩散模型的发展

OpenAI 研究人员的一篇题为“ Diffusion Models Beat GANs on Image Synthesis ”的论文表明，扩散模型可以实现优于生成模型的图像样本质量，但存在一些局限性。

该论文称，该团队可以通过一系列消融找到更好的架构，从而在无条件图像合成上实现这一目标。对于条件图像合成，该团队通过分类器指导提高了样本质量。

该团队还表示，他们认为扩散模型和 GAN 之间的差距来自两个因素：

“最近 GAN 文献使用的模型架构已经过大量探索。GAN 能够以多样性换取保真度，产生高质量的样本，但不能覆盖整个分布，”该论文补充道

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。