图像转换发展史
论文:https://arxiv.org/pdf/2205.07680.pdf
代码:https://github.com/xuekt98/BBDM
Isola等人首次提出了基于条件GAN的图像到图像转换统一框架 Pix2Pix。
Wang等人扩展了 Pix2Pix 框架以生成高分辨率图像 Pix2PixHD。
基于 CycleGAN 和 DualGAN 的未配对转换方法,使用两个分开的 GAN 在两个域上进行训练,能够处理未配对的数据。
这些一对一映射的方法无法生成多样的输出。
为了生成多样化的样本,Lee等人提出了 DRIT++,但它要求条件图像和结果图像具有高结构相似性。
还有其他基于 GAN 的技术用于图像到图像转换,例如无监督跨域方法、多域方法、小样本方法,但这些技术通常面临训练不稳定和模式崩溃的问题。
问题:现有的GAN方法在训练稳定性和模式多样性上存在缺陷。
完胜 GAN
-
问题:现有的图像到图像转换方法主要依赖条件生成过程,这通常涉及将输入域的图像转换为目标域的图像。
这些方法,尤其是基于GAN(生成对抗网络)的方法,虽然在图像质量上表现出色,但训练难度大,容易丢失输出分布的模式,并且在多样性上受限,因为它们通常将任务建模为一对一的映射。
-
解决方案:BBDM方法。
这是一种新颖的框架,采用布朗桥扩散过程对图像到图像的转换进行建模。与现有的基于条件生成的方法不同,BBDM通过双向扩散过程直接建立两个图像域之间的映射。
-
为什么使用BBDM:BBDM避免了传统方法中的条件信息杠杆问题。
它不依赖于将条件信息整合到预测网络中,从而能够更直接地建立两个域之间的映射,提高了模型的泛化能力和稳定性。
完胜 扩散模型
两个不同的扩散模型的直观比较:去噪扩散概率模型(DDPM)和布朗桥扩散模型(BBDM)。
这两个模型都用于图像到图像的转换任务,但它们在处理过程中有明显的差别。
A 部分展示了DDPM的有向图模型。
- 在这个模型中,从一个初始图像( X_0 )开始,经过一系列的正向扩散步骤(由左向右表示),将图像转化为噪声图像( X_T )。
- 然后,通过一个反向扩散过程(由右向左的箭头表示),逐步将噪声图像转换回目标图像( Y )。
- 在反向扩散过程中,每一步都使用一个预测网络 ϵ θ ( X t , t , Y ) \epsilon_\theta(X_t, t, \mathbf{Y}) ϵθ(Xt,t,Y) 来指导这个过程,以便接近目标图像。
问题:条件扩散模型在确保最终输出分布上存在理论上的不确定性。
B 部分则展示了BBDM的有向图模型。
- 这个模型的起点也是图像( X_0 ),正向扩散步骤同样将图像转换为噪声图像( X_T )。
- 不过,在BBDM中,( X_T )被设置为目标图像( Y ),这是一个重要的差别。
- 在反向扩散过程中,使用一个不同的预测网络 ϵ θ ( X t , t ) \epsilon_\theta(X_t, t) ϵθ(Xt,t),没有将( Y )作为输入的一部分。
- 这意味着BBDM的反向扩散过程不直接依赖于目标图像,而是将目标图像作为反向扩散的起点。
主要区别在于BBDM将图像到图像的转换建模为布朗桥过程,这是一种随机过程,其中终点是已知的,这在这里是目标图像( Y )。
相反,DDPM将其建模为条件生成过程,其中目标图像是在每一步中作为条件使用。
布朗桥模型在理论上提供了一种新的框架,确保了图像转换过程的连贯性和目标一致性,因为它通过在两端锚定过程来构建一个桥梁,这可以提供一个更稳定和有效的图像到图像转换过程。
布朗桥模型不仅仅是简单地模仿目标风格(GAN),而是保留了原始图像和目标风格之间的内在联系(扩散模型),确保了风格转换的自然过渡和连贯性(布朗桥-状态分布锚定)。
BBDM 结构
整个过程分为三个主要部分:像素空间(Pixel Space)、潜在空间(Latent Space)和布朗桥过程。
-
像素空间(左侧和右侧):
- 在左侧的红色区域内,有一个原始图像( I_A ),它通过一个编码器( E_A )被编码到潜在空间表示( L_A )。
- 在右侧的蓝色区域内,经过转换和解码的图像( I_B )从潜在空间表示( L_B )通过解码器( D_B )被重构。
-
潜在空间(中间绿色区域):
- 这个区域描述了图像表示从( L_A )到( L_B )的转换过程。
- “Brownian Bridge Forward Process”是一个正向过程,表示数据从( L_A )过渡到( L_B )的变化。
- “Reverse Process”是一个逆向过程,表示从( L_B )回到( L_A )的路径。
-
布朗桥过程(底部灰色区域):
- 这个过程以图像( I_A )的编码表示( z_0 )开始,并展示了正向过程(正向扩散)和逆向过程(逆向扩散)。
- ( z_t )是在时间( t )的潜在表示,它通过布朗桥公式计算得到, z t ∼ N ( t T z 0 + T − t T z T , t ( T − t ) T 2 I ) z_t \sim N\left(\frac{t}{T} z_0 + \frac{T - t}{T} z_T, \frac{t (T-t)}{T^2} I\right) zt∼N(Ttz0+TT−tzT,T2t(T−t)I)。
- 这个公式说明了在每个时间点( t )上的潜在表示( z_t )如何被计算,其中( z_T = y )是目标图像的编码表示。
这幅图说明了如何通过布朗桥过程在潜在空间内从一个图像域(( I_A ))转换到另一个图像域(( I_B )),并且整个过程在像素空间之外进行。
这种方法的目的是为了在图像到图像的转换中提供更好的泛化能力和稳定性,因为潜在空间的布朗桥过程提供了一个稳定和理论上保证的方式来指导图像的转换。
效果图:
BBDM > DRIT++ > 其他
总结
问题:传统的图像到图像转换方法在处理不同域之间的映射时,因依赖条件生成过程而导致效率低下、模型泛化能力差,并且结果缺乏多样性。
解法:布朗桥扩散模型(BBDM),这是一种基于布朗桥过程的图像到图像转换方法,通过双向扩散过程直接学习两个图像域之间的映射。
BBDM 是以下要素组合:
-
直接在两个图像域之间建立映射:BBDM直接模型化两个不同图像域之间的映射过程,而不依赖于条件生成过程。这种直接映射方式提高了模型在处理不同图像域转换时的效率和准确性。
-
避免在扩散过程中利用条件输入:传统的条件扩散模型依赖于条件输入,这可能导致结果中的伪像和模式崩溃。BBDM通过避免使用条件输入,减少了这种风险,提高了生成图像的质量。
-
模型的稳定性和可靠性通过简化映射过程得到提高:BBDM通过简化的映射过程,即不依赖于复杂的条件输入,增强了模型的稳定性和可靠性。
-
双向扩散过程增强了结果的多样性和质量:BBDM利用双向扩散过程(包括正向和逆向扩散)来增强生成结果的多样性和质量。在这个过程中,模型不仅生成与目标域相符的图像,而且还能产生多样化的变化,丰富了输出结果。