扩散桥模型 DDBM:YYDS!既增强 GAN 多样性 、又增强 扩散模型 确定性、还增强 BBDM 灵活性
核心思想
论文:https://arxiv.org/pdf/2309.16948.pdf
代码:https://github.com/alexzhou907/DDBM?tab=readme-ov-file
前置:Diffusion 扩散模型:论生成领先多样性,GAN太单一;论尊贵清晰度独占鳌头,VAE常失真
前置:布朗桥扩散模型 BBDM:全网最强图像转换算法,完胜 GAN、扩散模型
扩散桥模型 DDBM 和 布朗桥扩散模型 BBDM 是一类。
-
布朗桥是一种特殊类型的扩散桥,它基于布朗运动(或随机漫步),这是一种特殊的高斯过程。
布朗桥在起始和终止时刻具有确定的值。
布朗桥是线性的,并且其增量遵循高斯分布。这使得它在数学处理上比一般的扩散桥更简单。
-
扩散桥是指在给定起始和终止条件下的扩散过程。
这种过程不一定是线性的或高斯分布的,可以是任何类型的连续时间随机过程。
灵活性:扩散桥可以基于各种类型的随机过程构建,不局限于布朗运动。它可以是非线性的,也可以有非高斯分布的动态。
补充前置知识:常微分方程ODE、随机微分方程SDE
- 随机微分方程 SDE:在建模中加入随机扰动,模拟现实世界系统中的不确定性和随机噪声。例如,在图像生成的扩散模型中,正向过程通过 SDE 添加噪声,模拟了现实世界噪声的影响。
- 常微分方程 ODE:无随机扰动的确定性过程。在相同的扩散模型中,逆向过程(时间逆转)可以使用ODE来建模,因为在这个过程中我们希望去除噪声,恢复出清晰的图像。
-
Forward SDE (随机微分方程):
- 这是扩散桥的前向过程,从左边的 ( X_0 ) 开始,应用随机微分方程,通过加入噪声(表示为 ( dw_t ))逐渐转化为 ( X_T )。
- 方程中的 f ( X t , t ) f(X_t, t) f(Xt,t) 是漂移函数, g 2 ( t ) g^2(t) g2(t) 是扩散系数, h ( x t , t , y , T ) h(x_t, t, y, T) h(xt,t,y,T) 是一个调整项,它指导扩散过程朝向终点 ( y )。
- 方程右边的蓝色箭头表示漂移调整的方向,即 ∇ X t log p ( X T ∣ X t ) \nabla_{X_t} \log p(X_T | X_t) ∇Xtlogp(XT∣Xt)。
-
Probability Flow ODE (常微分方程):
- 这是扩散桥的逆向过程,也从 ( X_0 ) 开始,但使用常微分方程(没有噪声项)逆向地重建路径到 ( X_T )。
- 这个过程是确定性的,方程中的 s ( X t , t , y , T ) s(X_t, t, y, T) s(Xt,t,y,T) 代表了在给定 ( X_T ) 时 ( X_t ) 的分布梯度。
- 方程下方的橙色箭头表示条件分数 ∇ X t log q ( X t ∣ X T ) \nabla_{X_t} \log q(X_t | X_T) ∇Xtlogq(Xt∣XT)。
上图展示了从左至右,扩散过程如何逐渐将一个清晰的图像(如老虎的脸)添加噪声,变得越来越不清晰,直到最后变成一幅完全由噪声构成的图像。
然后,概率流ODE的过程逆转这个噪声图像回到原始清晰图像,但这个过程是双向的且确定性的,这意味着它可以精确地逆向跟踪扩散路径。
这张图说明 DDBMs 如何在扩散过程中通过向终点添加漂移调整,以及如何通过匹配去噪扩散分数来逆向扩散过程。
白色节点代表确定性的状态,而图中的灰色节点代表随机性的状态。
总结:
-
扩散桥可以基于任何类型的连续时间随机过程,而布朗桥特指基于布朗运动的过程。
-
扩散桥更为灵活,可以适应各种复杂的随机过程,而布朗桥通常涉及更简单的线性高斯过程。
-
比如图像到图像转换,涉及的转换模态很复杂的话,扩散桥模型 DDBM 比 布朗桥扩散模型 BBDM 要好!
DDBM 解决 BBDM,在处理非标准高斯分布间的转换中的局限性
-
解法:使用固定端点的扩散过程(Diffusion Process with Fixed Endpoints)
-
原因:通过固定端点,扩散过程可以用于处理从一个特定分布到另一个特定分布的转换,如图像到图像的转换。
大问题:如何改进生成模型以更有效地处理数据分布的转换和提高生成样本的质量?
各算法对比图:
解法:扩散桥模型 DDBM。
详细过程及其针对的问题:
-
数据分布转换的挑战:
- 问题:传统生成模型难以处理从一个复杂数据分布到另一个的转换。
- 解法:应用扩散过程,模拟数据分布从初始状态向目标状态的逐渐转移。
- 原因:扩散过程能够连续地变化数据,逐步接近目标分布。
-
扩散过程的应用:
- 问题:需要一种方法来逐步转移数据分布。
- 解法:通过扩散过程逐渐改变数据点。
- 原因:扩散过程通过增加逐渐减少的噪声,使数据逐步接近目标状态。
-
去噪分数匹配的引入:
- 问题:如何提高生成数据的逼真度和控制性。
- 解法:采用去噪分数匹配技术。
- 原因:这种技术通过学习数据分布的梯度来指导精确的数据生成。
-
处理非标准高斯分布间的转换:
- 问题:扩散模型在处理非高斯分布间转换时的限制。
- 解法:使用固定端点的扩散过程。
- 原因:固定端点使得扩散过程可以适用于任意分布之间的转换。
-
通用参数化:
- 问题:使扩散桥模型适应多种应用场景的需要。
- 解法:采用通用参数化方法。
- 原因:通过调整得分网络参数化,使模型能够处理多种分布转换任务。
-
时间逆转的SDE和ODE:
- 问题:如何有效地从目标分布逆向生成样本。
- 解法:采用时间逆转的SDE和ODE。
- 原因:这些方法能逆转扩散过程,从而有效地从目标分布生成样本。
-
采样过程的优化:
- 问题:提高采样过程的多样性和质量。
- 解法:引入噪声的高阶混合采样器。
- 原因:此方法结合多种采样步骤,避免输出模糊,提高样本多样性和质量。
这一串连的过程和各自针对的问题,一系列创新和精心设计的步骤来解决,生成模型在数据分布转换和样本质量提升方面的问题。
每一步都是为了解决特定的问题,使整个模型更加高效和适用于各种复杂的数据处理任务。
效果
评估使用了四种指标:Fréchet Inception Distance (FID),Inception Score (IS),Learned Perceptual Image Patch Similarity (LPIPS) 和 Mean Squared Error (MSE)。
这些指标用来衡量生成图像的质量和与目标图像的相似度。
- 箭头向下的,分数越小越好(最好的算法用加粗黑体)
- 箭头向上的,分数越大越好(最好的算法用加粗黑体)
表格分为两部分,每部分针对不同的数据集:
- Edges→Handbags(边缘图转手提包图)
- DIODE-256×256(一个户外场景数据集)
模型包括:
- Pix2Pix
- DDIB
- SDEdit
- Rectified Flow
- I²SB
- DDBM (VE)
- DDBM (VP)
在Edges→Handbags的任务中,DDBM (VP) 在所有四个指标上的表现优于其他模型。
在DIODE数据集上,DDBM (VP) 在FID和IS指标上有着最佳表现,但在LPIPS和MSE指标上稍微逊色于DDBM (VE)。
这些结果表明DDBM模型在图像到图像的转换任务中具有竞争力的性能,特别是当涉及到像素空间的转换时。
此外,DDBM的两种变体(VE和VP)在不同的情境和评估指标上各有优势。
- 变分方法(如VE)
- 概率方法(如VP)
VE (Variational) 方法
- 适合于那些需要生成非常精确和详细图像的任务。
- VE方法倾向于在图像的准确度和细节保持方面表现得更好。
- 如果任务需要从噪声数据中恢复出清晰图像,VE方法可能更适合。
VP (Probabilistic) 方法
- 适合于那些需要模型能够理解和掌握图像数据内在变化的任务。
- VP方法通常在处理图像的整体结构和分布上更为灵活。
- 当任务涉及到在图像之间转换,且转换不仅仅是像素级别的复制时,VP方法可能更适合。
最好就是,都跑一遍,实践出真知。
读后感:Fundus 转 OCT图像的生成(只是猜想,不一定)
DDBM(Denoising Diffusion Bridge Models)和 Pix2Pix 都可以用于配对图像任务,如图像到图像的转换。
这些模型都是在有监督的学习框架中工作的,需要成对的数据集来训练。
在这种情况下,你有源图像(例如边缘图)和目标图像(例如彩色手提包图),模型学习如何将一个图像转换成另一个。
在Pix2Pix中,使用的是条件性生成对抗网络(cGANs)来学习这种映射。
- 网络通过最小化与成对目标图像之间的差异并试图生成越来越逼真的图像,同时被对抗网络部分引导,后者的任务是区分生成的图像与真实的图像。
而 DDBM 则采用了扩散过程,特别是在DDBM框架内使用了去噪扩散桥的概念。
-
一种更新的方法,通常被认为可以生成更高质量的图像,特别是在像素空间的复杂性较高时。
-
DDBM通过模拟从一种分布到另一种分布的随机路径来生成图像,这个过程中会逐渐去除噪声并逼近目标图像。
两者都需要一组成对的训练数据,但它们底层的方法论和生成图像的具体技术是不同的。
Pix2Pix 侧重于通过对抗训练直接学习从输入到输出的映射,而 DDBM 则通过模拟扩散和逆扩散过程在图像的潜在空间中学习映射。
Fundus 转 OCT 猜想:
- Fundus图像到OCT图像的转换是一个复杂的任务,因为它们在视觉和结构上有很大不同。
- DDBM是一个强大的模型框架,可以处理复杂的图像到图像的转换任务,理论上它适合于这种类型的任务。
- DDBM能够通过学习数据之间的内在关联性来生成对应的OCT图像,尤其是当有足够的成对的Fundus和OCT图像数据用于训练时。
DDBM对于高度复杂的图像转换任务,如Fundus到OCT的转换,是有潜力的,但其成功在很大程度上取决于实验设计和执行的细节(模型的参数化、训练数据的质量和数量,以及特定于任务的调优)。
总结
DDBM 拆解:
子问题1、子解法1:如何在不同图像风格间进行转换
- 解法:DDBM学习映射
- 特征:图像风格转换不只是像素变化,而是结构和风格的整体变换
- 介绍:DDBM利用成对的图像数据集(如边缘图到真实图像)来学习不同风格之间的映射。该模型通过扩散桥,逐渐引入并消除噪声,从而实现从源图像到目标图像的过渡。
子问题2、子解法2:如何管理生成过程中的不确定性
- 解法:随机微分方程(SDE)
- 特征:扩散路径的不确定性需要被模拟和控制
- 介绍:在扩散桥模型中,SDE用来模拟图像数据点由清晰状态逐步增加噪声变为无序状态的随机路径。这种路径包含了从数据真实分布到随机噪声的过程。
子问题3、子解法3:如何精确控制逆向生成过程
- 解法:常微分方程(ODE)
- 特征:在逆向过程中,无随机性地从噪声回到清晰图像需要精确控制
- 介绍:ODE在逆向过程中用于确定性地模拟从随机噪声状态回到初始清晰图像的路径。这个过程是无噪声的,能够精确地重建数据点的原始状态。
DDBM 等于:
= 特征1:通过去噪扩散桥模型学习复杂图像对之间的高质量映射
+ 特征2:利用随机微分方程模拟图像数据从有序到无序状态的随机扩散路径
+ 特征3:采用常微分方程实现从无序到有序状态的精确逆向生成路径控制
- 关键方法:去噪扩散桥
- 定义:在给定的起始和结束图像分布之间,通过扩散桥过程学习映射,这涉及在潜在空间中引入并逐渐消除噪声,以模拟和逆转数据的随机路径。
- 应用:使得DDBM可以处理那些传统的基于对抗网络的方法难以应对的复杂图像转换任务,如在医学图像分析或风格转换等应用中。