【diffusion发展历程】扩散模型diffusion入门-感知整体框架

简介

扩散模型生成属于AIGC范畴,AIGC是Artificial Intelligence Generated Content——生成式人工智能的缩写,是人工智能1.0到2.0时代的一个重要标志。
扩散模型从2022年开始大火以来,在很多领域都有十分不错的表现,并且发展速度迅猛。特别是在图像生成、3D图像生成、音频生成等都有重大发展。本专栏文章主要讲解扩散模型diffusion在图像生成领域的重要发展和表现。

在图像生成领域,曾经的王者是GAN,通过一个生成模型(generative model)和判别模型(discriminative model)共同组成。而新的王者就是扩散模型Diffusion Model。

发展历程和重要文章

详细的发展过程以及扩散模型生态等可以参考:
2万字了解扩散模型

扩散模型的正向过程类比颜料注入水中的扩散过程添加噪声来扰动数据分布,而反向过程则对应于倒放过程而恢复数据。
扩散过程

详细可以了解这篇综述文章
北大与OpenAI联合发表的综述论文链接
扩散模型

三大基础(20年)

扩散模型从2015年11月斯坦福大学提出的扩散概率模型到19年和20年的扩散模型的三大基础(SGM、DDPM和Score SDE)的提出。此时的效率比较低,采样次数比较多。
在这里插入图片描述

高效采样(2021年初)

因此出现高效采样的DDIM和Improved-Diffusion,从原本的千步以上降低到百步以内,此外将原本的非确定性过程(马尔科夫链)转变为确定性过程。方向降噪过程有了一致性,为插值提供可能性。
在这里插入图片描述

引导扩散(2021年中)

对扩散模型的生成增加了引导,引入CFG无分类器样本质量和多样性的权衡,并且提出GLIDE。同时,零样本迁移CLIP模型架起图像和文字的桥梁。
在这里插入图片描述

语言模型加入(重要-2022年)

2022年4月OpenAI提出CLIP + Diffusion的DALLE2(unCLIP)诞生,谷歌使用T5+Diffusion的Imagen得分超过DALLE2。 unCLIP可以把图以提示词的方式去引导生成图片,但对物体空间位置的理解较差,物体属性的匹配(比如颜色)也较差。
在这里插入图片描述

Stable Diffusion基础LDM(重要-2022年)

LDM

LDMv2在数据集LAION的加持下有了扩散模型的新方向,将图像像素层面运行降维到潜空间运行,减少运算量和训练量,为扩散模型进入消费级显卡奠定了基础。并且增加了条件机制,支持多种输入,为之后的控制模型提供可能。
在这里插入图片描述

StableDiffusion

2022年8月SD模型(VAE+DM+Con)公布,进入消费级显卡时代。
同时,各种微调的方法被提出Textual Inversion(文本嵌入)、Dreambooth(个性化,将主体参入到图像中)、LoRA for DM。

微调方法(2022年)

在这里插入图片描述

可控模型(2023年)

2023年初对于可控性的提出,GLIGEN、ControlNet、T2I-Adapter。
在这里插入图片描述

SDXL新架构提出(2023年7月)

2023年7月SDXL新架构提出,SD全面进入1024*1024的高清时代。8月图像提示词进入成熟阶段image prompt。

看到这里大家对扩散模型的了解是不是有很大的兴趣呢?可以关注我专栏的相关论文解读(持续更新)

相关论文和代码下载

有时候论文网站arXiv.org打开比较慢,已经将相关论文和代码上传到网盘,需要的可以自取

链接: https://pan.baidu.com/s/1J1h8R4KyY7k6NgS2t7YOZg?pwd=3ss8

可以关注公众号:

搜索:福尔马林灌汤包
在这里插入图片描述

### 扩散模型的历史演变 扩散模型起源于一种潜在变量模型的设计理念,最早由 Sohl-Dickstein 等人在 2015 年提出[^2]。最初的扩散模型旨在通过对连续数据域中的样本逐步加入随机噪声来构建一个概率分布模型。这种技术的核心在于模拟物理世界中分子的随机运动过程,并将其应用于数据建模。 随后,在 2020 年,Ho, Jain 和 Abbeel 进一步发展了这一理论框架,提出了更高效的训练方法以及改进版的扩散模型架构。他们将整个流程分为两部分:正向噪声添加过程和反向去噪过程。前者负责逐渐破坏原始数据结构,而后者则专注于恢复这些被损坏的数据特征。 ### 当前应用与发展状态 当前,扩散模型已经成为图像生成领域的重要工具之一[^3]。它不仅限于简单的图片合成任务,还广泛应用于其他复杂的计算机视觉场景,比如超分辨率重建、风格迁移等。其工作机制基于这样一个假设——任何自然信号都可以看作是从纯高斯白噪音演化而来的一个特定实例;因此只要能学会如何逆转这个退化路径,则可以实现高质量的新颖内容创造能力提升。 此外,为了进一步优化性能表现并减少计算资源消耗,研究者们探索出了多种变体形式及其应用场景下的最佳实践方案。例如,“潜伏空间内的感知压缩”就是其中一项关键技术进步成果,该方法通过先对输入信息进行降维处理后再执行后续操作从而有效降低了整体运算成本同时保持甚至提高了输出质量水平[^4]。 ```python import torch from diffusers import DiffusionPipeline pipeline = DiffusionPipeline.from_pretrained('model_name') image = pipeline(prompt="a photograph of an astronaut riding a horse").images[0] image.save("astronaut_rides_horse.png") ``` 上述代码片段展示了一个典型的利用预训练好的扩散模型来进行文本到图像转换的例子。这里我们加载了一个名为`model_name` 的管道对象,并指定希望生成什么样的画面描述作为提示词传入函数内部完成创作最后保存结果文件至本地磁盘上供查看使用。 ### 总结 综上所述,从早期的基础概念确立到现在多样化实际用途展现出来强大潜力之间经历了漫长而又充满挑战性的道路。未来随着更多创新想法和技术手段不断涌现出来必将推动此方向取得更加辉煌成就值得期待!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值