引言/导读
扩散模型(Diffusion Models)已经成为当代生成式AI(如Stable Diffusion)的核心技术,将“文生图”的能力推向了前所未有的高度。令人意外的是,这一突破并非来自全新的纯粹计算理论,而是植根于一项看似不相关的物理学分支:非平衡热力学。这项物理学研究如何解释墨水在水中扩散或烟雾在空气中弥漫的规律,竟然与机器生成逼真图像的能力建立了数学上的桥梁。本文将深度解析扩散模型的核心机制,揭示非平衡热力学如何提供了一个强大的、时间依赖的数学框架,使AI能够在高维数据空间中精确地“导航”和“创造”。
一、 概率景观:在高维空间中寻找“真实”
理解扩散模型,首先需要将数据视为一个概率景观(Probability Landscape)。
数据即“山峰”,噪声即“山谷”
在高维数据空间中:
- 高概率区域形成了“山峰”,代表对人眼有意义、结构化的图像(即真实数据)。
- 低概率区域形成了“山谷”,代表几乎纯粹的噪声,概率接近于零。
在实际操作中,这个景观的维度非常高。在原始像素空间中,每个像素通道都有自己的轴;在潜在嵌入空间中,维度甚至可能超过16,000维。
传统机器学习的局限与时间的引入
如果已知这个概率景观的完整形状 ,生成数据就相当于从一个起点出发,导航地形以寻找这些“山峰”。然而,现实中的核心难题是:我们并不知道景观的全貌。最初,我们只有一套包含真实图像的训练集,这好比景观中的几根木桩。
传统方法试图推断出完整的景观图,但这样做难以推广到训练集之外的“未知领域”。我们真正需要的是一个“指南针”——一个模型,当被放置在任何特定位置时,能够做出局部决策,指引我们朝着更高概率的方向迈进一步。
正是为了实现这种局部导航和对全局结构的渐进探索,我们引入了时间依赖的概率分布 。在物理学中,时间依赖的场无处不在,无论是墨水在水中扩散还是热量在环境中传播,浓度或温度都随时间和空间演变。连接这些现实世界例子,便是扩散(Diffusion)——粒子从高浓度向低浓度移动的趋势,这改变了它们随时间的空间分布。
二、 前向扩散:从结构到混沌的物理路径
扩散模型的生命周期分为三个阶段:训练数据生成(前向过程)、模型训练和模型推理/采样(反向过程)。扩散机制


最低0.47元/天 解锁文章
1099

被折叠的 条评论
为什么被折叠?



