【diffusion发展历程】扩散模型diffusion入门-感知整体框架

福尔马林灌汤包

已于 2024-08-14 10:47:19 修改

阅读量1.7k

点赞数 24

分类专栏：【扩散模型】diffusion图像生成理论学习文章标签：人工智能 stable diffusion

于 2024-08-13 16:14:24 首次发布

本文链接：https://blog.csdn.net/iloveyouqri/article/details/141164307

版权

【扩散模型】diffusion图像生成理论学习专栏收录该内容

8 篇文章

订阅专栏

简介

扩散模型生成属于AIGC范畴，AIGC是Artificial Intelligence Generated Content——生成式人工智能的缩写，是人工智能1.0到2.0时代的一个重要标志。
扩散模型从2022年开始大火以来，在很多领域都有十分不错的表现，并且发展速度迅猛。特别是在图像生成、3D图像生成、音频生成等都有重大发展。本专栏文章主要讲解扩散模型diffusion在图像生成领域的重要发展和表现。

在图像生成领域，曾经的王者是GAN，通过一个生成模型(generative model)和判别模型(discriminative model)共同组成。而新的王者就是扩散模型Diffusion Model。

发展历程和重要文章

详细的发展过程以及扩散模型生态等可以参考：
2万字了解扩散模型

扩散模型的正向过程类比颜料注入水中的扩散过程添加噪声来扰动数据分布，而反向过程则对应于倒放过程而恢复数据。

详细可以了解这篇综述文章
北大与OpenAI联合发表的综述论文链接

三大基础（20年）

扩散模型从2015年11月斯坦福大学提出的扩散概率模型到19年和20年的扩散模型的三大基础（SGM、DDPM和Score SDE）的提出。此时的效率比较低，采样次数比较多。
在这里插入图片描述

高效采样（2021年初）

因此出现高效采样的DDIM和Improved-Diffusion，从原本的千步以上降低到百步以内，此外将原本的非确定性过程（马尔科夫链）转变为确定性过程。方向降噪过程有了一致性，为插值提供可能性。
在这里插入图片描述

引导扩散（2021年中）

对扩散模型的生成增加了引导，引入CFG无分类器样本质量和多样性的权衡，并且提出GLIDE。同时，零样本迁移CLIP模型架起图像和文字的桥梁。
在这里插入图片描述

语言模型加入（重要-2022年）

2022年4月OpenAI提出CLIP + Diffusion的DALLE2（unCLIP）诞生，谷歌使用T5+Diffusion的Imagen得分超过DALLE2。 unCLIP可以把图以提示词的方式去引导生成图片，但对物体空间位置的理解较差，物体属性的匹配（比如颜色）也较差。
在这里插入图片描述