Diffusion Models With Efficient Sampling

引言

generate samples这一步一般要经历很多步,因此很多工作focus在加速sampling过程,如stable diffusion提供的sampling method就有DPM这种加速版本:
在这里插入图片描述

从方法上来说分为两种类型:learning-free sampling和learning-based sampling。

learning-free sampling方法介绍

大部分leanring-free方法都是基于SongYong博士推导的SDE/ODE形式 [Score-based generative modeling through stochastic differential equations],也可以看他的blog
这种形式能够通过新的数值解形式优化step size、model iteration
如:

再比如DDIM里提到的加速方法:
在这里插入图片描述
在这里插入图片描述

下面介绍两篇不从数值解出发的paper,可以扩展下思维,分别是learning-free的和learning-base的:

ReDi: Efficient Learning-Free Diffusion Inference via Trajectory Retrieval

对于一个反向迭代序列,很多方法是增大step size,本文目的是做跳步。用到了Sdedit: Guided image synthesis and editing with stochastic differential equations和Uncovering the disentanglement capability in text-to-image diffusion models提到的:前几步决定图像的layout,接下来的步骤决定细节
在这里插入图片描述
算法框架:
在这里插入图片描述
依赖的Knowledge Base的构建过程以及整体inference过程:
在这里插入图片描述
实验结果1:quality
在这里插入图片描述
实验结果2:Trajectories are better retrieval keys than text-image representations
相当于knowledge base的keys换成CLIP embeddings
在这里插入图片描述
实验结果3:REDI can perform zero-shot domain adaptation without a domain-specific knowledge base
在这里插入图片描述
Ablation Study:
在这里插入图片描述

Flow Straight and Fast

sampling过程当做是A分布向B分布的transport,并且需要在里面找一条最短路径出来,也就是论文中说的走直线。Generate modeling和transfer modeling的区别在于,前者中的A分布是一个基础分布,而后者都是empirically observed unknown distributions。一般的optimal transport问题求解之后我会再写篇文章介绍。
本文的方法叫做Rectified flow,通过ODE来隐式的学习transport map T
在这里插入图片描述
一步到位的方法就是走直线,因此我们的目的就是找到一个满足A到B的线性插值:
在这里插入图片描述
在这里插入图片描述
这里有一个简单的例子说明:
two distributions:
在这里插入图片描述
rectified_flow_1, N=1:
在这里插入图片描述
rectified_flow_1, N=100:
在这里插入图片描述
rectified_flow_2,N=1:
在这里插入图片描述
这篇文章的核心是理解non-crossing这件事,说实话作者写的我觉得不太清楚,一句话带过了。
在这里插入图片描述
比较相关的证明是利用杰森不等式来得出传输代价一直在降低,从而能知道在朝着代价更小的路线走,配对过程就更加non-crossing?传输代价降低的证明:
在这里插入图片描述

这部分我也没完全看懂,有看懂的朋友在评论区交流下呀

Reflow VS Distillation
让t=0其实就是一步蒸馏:
区别:蒸馏硬学配对,reflow注重于得到正确的边际分布,降低了交叉的概率
Reflow和Distillation也可以组合使用:先用Reflow得到比较好的配对,最后再用已经很好的配对进行Distillation
在这里插入图片描述
结果:
在这里插入图片描述

标签高效的语义分割是指使用扩散模型进行语义分割的方法。语义分割是计算机视觉的一项重要任务,目标是将图像的每个像素标记为属于特定类别。传统的语义分割方法通常需要大量的标注数据进行训练,这对于很多场景来说是不可行的,因为标注数据的获取十分耗时和费力。因此,提出了一种使用扩散模型的标签高效语义分割方法。 扩散模型基于自监督学习的思想,通过利用图像自身的结构信息进行训练。具体而言,该方法首先将图像划分为一组超像素或紧密区域,然后根据这些区域的颜色、纹理或形状等特征来推断像素的标签。通过这种方式,可以大大减少对标注数据的依赖。 该方法的关键步骤是利用扩散模型对像素进行标签推断。扩散模型是一种基于概率传播的图像分割方法,它通过计算每个像素与其周围像素之间的相似度来推断像素的标签。这样一来,即使只有部分像素有标注,也可以利用它们与周围像素的相似性来推断未标注像素的标签,从而实现标签高效的语义分割。 与传统的语义分割方法相比,标签高效的语义分割方法在保持较高准确率的同时,显著减少了对标注数据的需求。这对于那些无法获得大量标注数据的场景来说,具有重要的实际意义。因此,标签高效的语义分割方法在计算机视觉和图像处理领域具有广泛的应用前景。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值