【扩散模型】diffusion图像生成理论学习
文章平均质量分 94
本专栏主要记录讲解扩散模型diffusion在图像生成领域相关的重要性文章的原理和理论知识。主要是2D图像生成、文生图、图生图以及图像编辑
福尔马林灌汤包
这个作者很懒,什么都没留下…
展开
-
【扩散模型】潜扩散模型LDMv2原理
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据和其他数据上实现了最先进的合成结果。此外,它们的配方允许一个指导机制来控制图像生成过程,而无需再训练。然而,由于这些模型通常直接在像素空间中操作,因此优化功能强大的dm通常会消耗数百个GPU天,并且由于顺序评估而导致推理成本高昂。为了使DM训练在有限的计算资源上同时保持其质量和灵活性,我们将它们应用于强大的预训练自编码器的潜在空间。原创 2024-08-19 12:59:59 · 737 阅读 · 0 评论 -
【扩散模型】DALL-E2(unCLIP)原理
像CLIP这样的对比模型已经被证明可以学习图像的鲁棒表示,同时捕捉语义和风格。为了利用这些表示进行图像生成,我们提出了一个两阶段模型:一个先验模型生成给定文本标题的CLIP图像嵌入,一个解码器生成以图像嵌入为条件的图像。我们表明,显式生成图像表示提高了图像多样性,并在照片真实感和标题相似性方面损失最小。我们的解码器以图像表示为条件,也可以产生图像的变体,同时保留其语义和风格,同时改变图像表示中缺失的非必要细节。此外,CLIP的联合嵌入空间使语言引导的图像处理以零拍摄的方式实现。原创 2024-08-18 16:20:22 · 681 阅读 · 0 评论 -
【扩散模型】多模态大模型CLIP
最先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限制的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的选择,它利用了更广泛的监督来源。作者证明了预测哪个标题与哪个图像相匹配的简单预训练任务是一种有效且可扩展的方法,可以在从互联网收集的4亿对(图像,文本)数据集上从头开始学习SOTA图像表示。在预训练之后,使用自然语言来参考学习到的视觉概念(或描述新的概念),从而实现模型向下游任务的零射击转移。原创 2024-08-16 15:44:59 · 703 阅读 · 0 评论 -
【扩散模型】引导扩散方法Classifier-free Guidance
现在我们来介绍引导扩散的另一个方法Classifier-free Guidance,该方法也广泛运用于后续的各种扩散模型。论文:CLASSIFIER-FREE DIFFUSION GUIDANCEclassifier guidance到classifier-free guidance之间扩散模型也有了更多的研究,描述的符号也发生了一些改变,采样时间也发生了变化。文章使用了不同之前提到的文章的公式符号,并且将采样时间使用λlogαλ2σλ2进行代替。原创 2024-08-15 11:27:30 · 1094 阅读 · 0 评论 -
【扩散模型】引导扩散方法ClassifierGuidance
DDPM和DDIM只能通过特定的采样方式恢复与训练集相似的图片,而在采样过程中生成的方向我们难以控制。因此,对实现扩散模型在采样过程中的引导,使其生成我们想要的种类图片有着重要意义。Classifier Guidance就是其中一个方法。原创 2024-08-15 00:21:31 · 954 阅读 · 0 评论 -
【扩散模型】加速采样算法DDIM《Denoising Diffusion lmplicit Models》论文原理
对于一个已经训练好的DDPM,只需要对采样公式做简单的修改,模型就能在去噪时跳步骤,在一步去噪迭代中直接预测若干次去噪后的结果。DDIM论文推广了DDPM的数学模型,打破了马尔科夫链的过程,从更高的视角定义了DDPM的反向过程(去噪过程)。在这个新数学模型下,我们可以自定义模型的噪声强度,让同一个训练好的DDPM有不同的采样效果。原创 2024-08-14 22:26:48 · 604 阅读 · 0 评论 -
【扩散模型】DDPM论文理解
DDPM(Denoising Diffusion Probabilistic Models)更详细解读可以参考(这几个视频看完基本对DDPM的原理就能够把握了)李宏毅大白话AIb站公式推导1b站公式推导2基本过程扩散模型受扩散现象的启发,通过逐步向图片中加入高斯噪声来模拟这种现象,并通过逆向过程从(随机)噪声中生成图片。添加噪声的两个条件:(1)整个过程的状态都服从马尔科夫性质(2)每一步加入的噪声变化都比较少,则变化过程可以近似为高斯分布。前向过程加入噪声的混合公式:将原创 2024-08-13 17:28:25 · 978 阅读 · 0 评论 -
【diffusion发展历程】扩散模型diffusion入门-感知整体框架
扩散模型生成属于AIGC范畴,AIGC是Artificial Intelligence Generated Content——生成式人工智能的缩写,是人工智能1.0到2.0时代的一个重要标志。扩散模型从2022年开始大火以来,在很多领域都有十分不错的表现,并且发展速度迅猛。特别是在图像生成、3D图像生成、音频生成等都有重大发展。本专栏文章主要讲解扩散模型diffusion在图像生成领域的重要发展和表现。原创 2024-08-13 16:14:24 · 914 阅读 · 0 评论