diffusion transformer从数学到实践 (1)

最新推荐文章于 2024-06-17 11:22:24 发布

远洋之帆

最新推荐文章于 2024-06-17 11:22:24 发布

阅读量649

点赞数 7

文章标签： AIGC 人工智能科技 agi 算法

本文链接：https://blog.csdn.net/liangwqi/article/details/136644554

版权

如何建模

深度学习、transformer为什么能够学会东西呢。为什么通过对一个维度的信息压缩、解压缩后就能够让模型学习到东西。把流行分布定则框架引入数据科学，流行分布定则为数据科学的可行性给出了较严格的数学依据。
深度学习的主要目的和功能之一就是从数据中学习隐藏的流形结构和流形上的概率分布。
关于聚类分布定律，目前有相对完善的理论基础-最优传输理论，和较为实用的算法，例如基于凸几何的蒙日-安培方程解法，这些方法可以测量概率分布之间的距离，实现概率分布之间的变换。关于流形分布定律，目前理论发展不太完备，很多时候学习效果严重依赖于调参。但是很多实际应用问题，都可以用流形的框架来建模，从而用几何的语言来描述、梳理，用几何理论工具来加以解决，进而有望从含混模糊的经验性试错，进化到思路清晰的定量研究。
流形学习是一类借鉴了拓扑流形概念的降维方法。“流形”是指的是连在一起的区域，数学上，它指的是一组点，且每个点都有其邻域。给定任意一个点，其流形局部看起来像是欧几里得空间。换言之，它在局部空间有欧式空间的性质，能用欧式空间来进行距离计算。因此，很容易地在局部建立降维映射关系，然后再设法将局部关系推广到全局，进而进行可视化展示。

在数据流形 $\Sigma \subset \mathbb{R}^d$ 上稠密采样 ${x_1, x_2, ..., x_k\}$ ，我们优化以下损失函数：
$\min_{\theta, \xi} L(\theta, \xi) = \min_{\theta, \xi} \sum_{i=1}^{k} \|x_i - \psi_{\xi} \circ \phi_{\theta}(x_i)\|^2$
如果损失接近 0，那么 $\psi_{\xi} \circ \phi_{\theta}$ 限制在 $\Sigma$ 上为恒同映射，即对于 $\Sigma$ 上的任意点x，有 $\psi_{\xi} \circ \phi_{\theta}(x) = x$ 。这表示 $\phi_{\theta}$ 和 $\psi_{\xi}$ 在 $\Sigma$ 上形成了一对逆映射，因此 $\phi_{\theta}$ 和 $\psi_{\xi}$ 为同胚映射。
这里的 $\phi_{\theta}$ 和 $\psi_{\xi}$ 分别代表两个映射， $\theta$ 和 $\xi$ 是这些映射的参数。 $\phi_{\theta}$ 可以被视为将数据从原始空间映射到某个特征空间的函数，而 $\psi_{\xi}$ 则是将数据从特征空间映射回原始空间的函数。这种优化框架常见于自编码器（Autoencoder）和其他深度学习模型中，旨在学习数据的有效表示，同时保持数据的重要特征不变。

建模合理性假设

流行分布定则

从理论角度来看，流形分布定则的数学基础来自于微分几何和拓扑学。自然数据集虽然存在于高维空间中，但由于受到物理、生物等规律的约束，实际上只占据了其中的一个低维子集。这个子集在局部具有欧几里得空间的性质，因此是一个流形。而数据点在流形上的分布则反映了数据的内在结构和规律。

每个自然概念对应一个数据集,数据集中的每个样本都是一个数据点。
数据集分布在某个低维流形附近,这个流形被称为数据流形Σ。
数据流形Σ嵌入在高维的背景空间Rn中。
数据集可以被抽象成一个在数据流形Σ上的概率分布μ。

为什么数据点云是低维的？

自然现象和数据集往往受到物理、生理、或其他自然规律的约束，这些规律限制了可能的观察结果的多样性。例如，人脸图像虽然存在于高维的像素空间中，但实际上，由于人脸的固有特性（如左右对称、五官的排列等），真实的人脸图像只占据这个高维空间中的一小部分，形成了一个低维的流形。这就是说，尽管原始数据空间的维度很高，但数据实际分布的维度（即数据流形的维度）远远低于这个值。这种维度的降低是由自然界中普遍存在的规则和约束导致的。

为什么点云集合是流形？

流形的概念来自数学，特别是拓扑学和微分几何，指的是局部具有欧几里得空间性质的空间。在数据科学和深度学习中，当我们说数据集形成一个流形时，我们的意思是数据点在局部呈现连续光滑的结构，可以通过较低维度的空间来描述。这种性质的存在，是因为物理系统通常是适定的，意味着系统的行为由其初始和边界条件连续地决定，遵循一定的物理定律。例如，温度分布的例子说明了如何由边界条件确定的解形成一个低维流形。在物理、生物等多个领域，系统的稳定性和规律性确保了即使在复杂的高维数据空间中，观测到的数据也会形成低维的、连续光滑的结构。

数据流形的意义

数据流形的概念在数据科学和深度学习中至关重要，因为它为理解和处理复杂数据提供了一个强大的框架。通过识别和利用数据的流形结构，我们可以更有效地进行数据降维、特征提取、模式识别等任务。例如，自编码器和生成对抗网络（GANs）等深度学习模型就是试图学习数据流形的结构，以生成新的数据点或发现数据的低维表示。这些方法的成功在很大程度上依赖于数据流形假设的有效性。

流形分布定则的应用

流形分布定则不仅是一个理论概念，它还指导着实际的数据处理和分析方法。例如，在图像识别、语音处理、自然语言处理等领域，理解数据的流形结构可以帮助设计更有效的算法和模型。此外，流形学习方法，如t-SNE和UMAP，利用了流形假设来进行高效的数据可视化和降维，使我们能够探索和理解高维数据集的内在结构。
综上所述，流形分布定则和数据流形的概念为我们提供了一种理解和处理自然数据集的强大工具，使我们能够揭示数据的内在结构和模式，从而在各种数据科学应用中取得成功。

降维:流形分布定则揭示了高维数据实际上分布在低维流形附近,这为数据降维提供了理论基础。
数据表示:通过将数据集抽象为流形上的概率分布,我们可以更好地表示和理解数据的内在结构。
数据生成:了解数据在流形上的分布,可以帮助我们生成新的、与真实数据相似的合成数据。
数据插值:在流形上进行插值可以生成位于现有数据点之间的新数据,这在数据增强和样本生成中很有用。
算法设计:很多机器学习算法,如流形学习、谱聚类等,都是基于流形分布定则设计的。
理论支持:流形分布定则为许多数据科学任务,如数据降维、数据可视化、数据生成等,提供了坚实的理论基础。

图像空间、数据流形、编码解码映射、隐空间和数据流形分布.
流形是拓扑和微分几何中最为基本的概念，本质上就是很多欧氏空间粘贴在一起构成的空间。如图所示，一个流形（manifold）是一个拓扑空间，被一族开集所覆盖，对于每个开集存在一个同胚映射，被称为是坐标映射，被称为是参数域。构成一个局部坐标卡（local chart），所有局部坐标卡构成流形的图册（atlas）。在交集上，每个点可以有多个局部坐标，在局部坐标间存在变换。从流形到坐标域的变换被称为是参数化，其逆变换，从局部坐标到流形的变换被称为是流形的局部参数表示。如果流形嵌入到欧氏空间中，则欧氏空间被称为是背景空间。
在深度学习领域，一个自然的数据集被视为一个流形上的概率分布，这被称为是流形分布定则。我们将观察到的一个样本看成是原始数据空间中的一个点，大量的样本构成原始数据空间中的一个稠密点云，这片点云在某个低维流形附近，这个流形被称为是数据流形。点云在数据流形上的分布并不均匀，而是满足特定的分布规律，被表示成数据概率分布。
那么，我们自然产生如下的疑问：1. 为什么数据点云是低维的，而非占满整个原始数据空间？2. 为什么点云集合是流形，即局部是连续光滑的？
关于第一个疑问的回答是：因为自然现象满足大量的自然规律，这些规律的限制降低了数据样本点云的维数，而无法占满整个空间。比如，我们考察所有自然人脸照片构成的数据集，每个采样点是一张图片，像素的个数乘以3就是原始图像空间的维数。原始图像空间中的任意一点，都是一幅图片，但是极少的图片才是人脸图片，才会落在人脸图片流形上，因此人脸图片流形不可能占满整个原始图像空间。人脸需要满足很多自然的生理学规律，每个规律都会降低数据流形的维数，例如左右对称，就减少了近一半的像素，都有五官等确定的几何与纹理区域，每个器官的形状类似，描述的参数不多，因此进一步降低维数。最终控制人脸的基因非常有限，由此人脸图片流形的维数远远低于图片像素个数。
再如，我们观察平面区域的稳恒态温度分布，由物理热扩散定理，稳定函数满足经典的Laplace方程，由其边界值所唯一确定。如果我们在区域内部有n平方个采样点，在区域边界有n个采样点，那么每个观察到的温度函数被表示为维数为n平方的向量，即原始数据空间维数为n平方，但是实际的流形维数为边界函数的维数n。由此可见，满足物理定律的观察样本构成的数据流形维数远远低于原始数据空间维数。
关于第二个问题的回答是：绝大多数情形下，物理系统是适定的，但在临界状态下，物理系统会发生突变（由灾变理论或者临界态理论来描述）。物理定律多由偏微分方程系统来描述，微分方程的解由初始值和边界值来控制，系统是适定的，意味着由于能量守恒、质量守恒、能量传递小于光速等物理限制，初边值逐渐变化时，解也随之逐渐变化。在偏微分方程的正则性理论中，这意味着边值的索伯列夫范数控制解的索伯列夫范等等。我们将解视为数据流形上的点，边值视为其对应的局部坐标（即隐空间中的对应隐特征向量）。从数据流形到隐空间的映射被称为是编码映射，从隐空间到数据流形的映射被称为是解码映射。正则性理论保证编码映射和解码映射是连续的乃至光滑的，解的唯一性保证这些映射是拓扑同胚或者微分同胚。边值可以任意局部扰动，即隐变量存在一个开欧式圆盘的邻域。这意味着满足特定物理定则的观察样本构成了数据流形。

流形嵌入理论

流形嵌入理论是数学中的一个重要领域，特别是在微分几何和拓扑学中。它研究的是如何将一个抽象定义的流形（manifold）嵌入（embed）或浸入（immerse）到一个更高维度的欧几里得空间中，同时保持流形的拓扑和微分结构。简单来说，流形嵌入理论关心的是如何将复杂的几何对象以一种“平滑”的方式放入一个更为直观的空间中，以便于研究和应用。

流形的定义

在深入嵌入理论之前，首先需要理解流形的概念。在数学中，流形是一个可以局部近似于欧几里得空间的拓扑空间，这意味着每一点都有一个邻域，这个邻域与某个欧几里得空间中的开集同胚（即存在一一对应且连续的映射）。流形可以视为更复杂空间的简化模型，它允许我们使用欧几里得空间的直观和技术来研究更广泛的几何对象。

嵌入与浸入

嵌入（Embedding）：如果存在一个光滑映射 $\rightarrow \mathbb{R}^n$ ，使得 $f$ 是单射（一一对应）并且 $f$ 及其逆映射 $f^{-1}$ 都是连续的，则称 $M$ 可以被嵌入 $\mathbb{R}^n$ 。嵌入是一种保持流形拓扑和微分结构的映射，它使得流形在目标空间中没有自我相交。
浸入（Immersion）：如果存在一个光滑映射 $\rightarrow \mathbb{R}^n$ ，使得在 $M$ 的每一点， $f$ 的微分是单射，则称 $M$ 可以被浸入 $\mathbb{R}^n$ 。与嵌入不同，浸入允许流形在目标空间中自我相交。

嵌入定理

流形嵌入理论的核心结果之一是嵌入定理。这些定理给出了流形可以嵌入或浸入更高维欧几里得空间的条件和方法。

惠特尼嵌入定理：这是最著名的嵌入定理之一，由哈塞尔·惠特尼（Hassler Whitney）在1936年证明。惠特尼嵌入定理表明，任何 $n$ 维光滑流形都可以光滑地嵌入到 $\mathbb{R}^{2n}$ 中，也可以光滑地浸入到 $\mathbb{R}^{2n-1}$ 中。这个定理说明了高维欧几里得空间的充足性，对于理解和研究流形提供了极大的便利。
纳什嵌入定理：约翰·纳什（John Nash）在1950年代证明了一个更一般的嵌入定理，表明任何黎曼流形都可以等距嵌入到某个高维欧几里得空间中。纳什嵌入定理在技术上更为复杂，但它为理解流形的几何结构提供了强大的工具。

流形嵌入理论在数学的许多领域都有应用，包括微分几何、代数几何、拓扑学和数学物理等。通过研究流形的嵌入和浸入，数学家们能够更深入地理解复杂几何对象的性质，从而推动这些领域的发展。

问题建模

4 个主要(prime)空间，4 个对偶(dual)Token 序列空间
主空间之间的变换(transformation)经典数学描述
对偶空间之间的 transformation 由 transformer 实现
框图是否可交换?
上面的图展示的是目前生成模型涉及到的几个部分，全部可以归结到一个框架里面。主要包括了两个描述空间：主空间和对偶空间，在每个空间里面又设计到：像素域、隐空间域、diffusion映射后高斯噪声域、以及用来对齐标定用的指标域（文本）。
围绕这主空间、对偶空间衍生衍生出了两大类的生成算法，两大空间又较差、通过隐空间的桥接映射构建出很多类算法；针对需不需要做diffusion映射又衍生出很多类算法。当然这些算法都是依托流行假设定则，只是在求解问题过程中对问题建模、对求解过程为了求解的方便做了各种假设。

主空间

像素空间到隐空间 VAE、clip、encode，隐空间到像素空间 +文本encoder对齐隐空间

隐空间做diffusion映射到高斯噪声，逆高斯噪声diffusion转成隐空间，隐空间decoder变成像素图+文本encoder对齐隐空间

像素空间diffusion映射到高斯噪声，逆高斯噪声diffusion转成像素空间图+文本对齐隐空间

对偶空间

token或patch压缩，解压缩还原生成信息

token或patch隐空间，解压到隐空间，隐空间翻译成信息

主空间和对偶空间交叉

token或patch隐空间做高斯diffusion映射，逆高斯diffusion映射到隐空间，隐空间翻译成信息

token或patch空间做diffusion映射，逆高斯diffusion映射生成信息

问题求解

因为现在对于生成问题在建模或者求解过程都做了简化、约束假设所以使得生成内容和实际的物理世界偏差较大。针对这些问题，底下介绍了集中可以在建模或者求解过程中让生成内容更贴近物理的数学理论作为后续可探索的方向。

灾变理论（临界态理论）：

灾变理论（Catastrophe Theory）是数学中的一部分，属于动力系统与微分拓扑学的一个分支，由法国数学家René Thom在1960年代提出。这一理论主要研究在连续变化的控制因素作用下，系统状态发生突然、不连续变化的现象。灾变理论试图解释和模拟自然界和社会中那些小的原因引起大的效果的情况，例如桥梁的突然坍塌、股市的突然崩盘、生态系统的突然变迁等。

基本概念

灾变理论中的“灾变”指的是系统在平滑变化的外部条件下，其状态发生的剧烈、不可逆的跳跃。这种现象通常发生在系统的临界点上，即系统的稳定性发生改变的点。

主要类型

René Thom提出了七种基本的灾变类型，这些类型可以用来描述大多数在三个或更少控制因素作用下发生的灾变现象。这七种基本类型包括：

折叠灾变（Fold Catastrophe）
裂口灾变（Cusp Catastrophe）
拱灾变（Swallowtail Catastrophe）
蝴蝶灾变（Butterfly Catastrophe）
双曲悬链线灾变（Hyperbolic Umbilic Catastrophe）
抛物悬链线灾变（Parabolic Umbilic Catastrophe）
椭圆悬链线灾变（Elliptic Umbilic Catastrophe）

应用

灾变理论在多个领域都有应用，包括生物学、工程学、经济学、社会学等。在这些领域中，灾变理论被用来模拟和解释系统在特定条件下可能发生的剧烈变化。

争议与限制

尽管灾变理论在理论和应用上都取得了一定的成就，但它也受到了一些批评。主要的批评集中在理论的普遍性和实际应用的有效性上。一些批评者认为，灾变理论在解释复杂系统时过于简化，可能忽略了系统内部的动态性和复杂性。
总的来说，灾变理论为理解和分析系统在特定条件下发生剧烈变化提供了一个有趣且有用的框架，尽管它在应用上存在一定的限制，但仍然是数学和应用数学领域中的一个重要组成部分。

纤维丛示性类理论

纤维丛示性类理论（Theory of Characteristic Classes of Fiber Bundles）是数学中的一个重要领域，特别是在拓扑学和微分几何中占有重要地位。示性类是纤维丛的拓扑不变量，可以用来区分不同的纤维丛结构，以及研究流形上向量丛和主丛的性质。这些类为研究流形的拓扑结构提供了强有力的工具。

纤维丛

纤维丛（Fiber Bundle）是一种拓扑结构，由一个总空间（Total Space），一个基空间（Base Space），以及一个典型的纤维（Fiber）组成。直观地说，纤维丛可以看作是基空间上“参数化”的纤维的集合，其中每一点上的纤维都是相同的。

示例性类的基本概念

示性类是纤维丛的一种拓扑不变量，用于区分不同的纤维丛结构。它们是流形的上同调群中的元素，可以用来研究流形的拓扑性质。示性类最初是为了研究向量丛（特别是切向量丛）而引入的，但后来被推广到更一般的纤维丛上。

主要类型的示性类

斯蒂弗尔-惠特尼示性类（Stiefel-Whitney Classes）：这是最基本的示性类之一，用于研究实向量丛的拓扑性质。斯蒂弗尔-惠特尼示性类属于流形的模2上同调群。
切尔恩示性类（Chern Classes）：切尔恩示性类用于复向量丛。它们属于流形的整数上同调群，是研究复向量丛拓扑性质的重要工具。
庞加莱示性类（Pontryagin Classes）：庞加莱示性类是从实向量丛的复化中得到的，用于研究实向量丛的性质。它们属于流形的整数上同调群。
欧拉类（Euler Class）：欧拉类是向量丛的一个重要示性类，与向量丛的欧拉示性数密切相关。对于奇数维向量丛，欧拉类总是平凡的。

应用

示性类在数学的许多领域都有应用，包括但不限于：

拓扑学：示性类是研究流形拓扑性质的重要工具。
微分几何：通过示性类可以研究流形上向量丛的几何结构。
代数几何：示性类在代数几何中也有应用，尤其是在研究复流形时。
数学物理：在理论物理中，特别是在规范理论和弦理论中，示性类也起着重要的作用。

纤维丛示性类理论是现代数学中的一个核心领域，它不仅丰富了拓扑学和微分几何的理论内涵，也为物理学和其他科学领域提供了有力的数学工具。
热扩散方程和最优传输方程（蒙日-安培方程）的正则性理论来解释

最优传输方程（蒙日-安培方程）的正则性

最优传输问题（Optimal Transport Problem）是数学中的一个经典问题，它起源于18世纪法国数学家加斯帕尔·蒙日（Gaspard Monge）的工作。这个问题的基本形式是寻找一种将一个质量分布转移到另一个质量分布的最经济方式，即在满足某些约束条件下最小化成本函数的问题。在20世纪和21世纪，最优传输问题和蒙日-安培方程（Monge-Ampère equation）在数学、物理、经济学和工程学等领域得到了广泛的研究和应用。

蒙日-安培方程

蒙日-安培方程是一个非线性偏微分方程，它在最优传输问题的研究中起着核心作用。这个方程描述了最优传输映射的性质，特别是在成本函数为二次成本时，最优传输问题可以通过求解蒙日-安培方程来实现。蒙日-安培方程的一般形式为：

$det(D^2u(x)) = f(x)$

其中， $u (x)$ 是一个凸函数， $D^2u(x)$ 表示 $u$ 的Hessian矩阵， $f (x)$ 是给定的正函数。

正则性理论

蒙日-安培方程的正则性理论研究的是解的平滑性和结构性质。这个理论的目标是确定在什么条件下蒙日-安培方程的解是光滑的（例如，具有连续导数）。正则性理论对于理解方程解的性质以及方程的数值解法都是非常重要的。
在最优传输问题的背景下，正则性理论的一个关键问题是确定在什么条件下最优传输映射是光滑的。这个问题的答案依赖于源和目标分布的性质，以及成本函数的具体形式。例如，当源和目标分布是绝对连续的，并且成本函数满足一定的正则性条件时，可以证明最优传输映射是光滑的。

重要结果

Caffarelli的正则性理论：路易斯·卡法雷利（Luis Caffarelli）在1990年代对蒙日-安培方程的正则性理论做出了重要贡献。他证明了在一定条件下，蒙日-安培方程的解是光滑的，甚至在一些非常一般的情况下也是如此。
界面问题：在某些情况下，最优传输映射可能在某些区域内是光滑的，而在其他区域内则不是。理解这种界面的性质是正则性理论的一个重要方面。

最优传输方程（蒙日-安培方程）的正则性理论是一个高度活跃的研究领域，它涉及偏微分方程理论、凸分析、拓扑学和几何分析等多个数学分支。这个领域的研究不仅深化了我们对蒙日-安培方程本身的理解，也推动了最优传输理论和应用的发展。

存在问题

临界状态的缺失

自然界的绝多数物理过程都是稳恒态与临界态的交替变化。
在稳恒态中，系统参数缓慢变化，容易获取观察数据;由此， Sora 系统学习到的数据流形，绝大多数都是由稳恒态的样本所构成, 在生成过程中，Sora 非常容易生成稳恒态的视频片段;
在临界态中(灾变态)，系统骤然突变，令人猝不及防，很难抓拍到观察数据。因此，临界态的数据样本非常稀少，几乎在训练集中零测度。物理过程中的临界态样本多分布在数据流形的边界, Sora 生成过程中往往跳过临界态。
但是在人类认知中，最为关键的观察恰恰是概率几乎为零的临界态。
Sora 生成小狗群在嬉笑斗闹，时而相互遮挡，时而散开。在视频的某一刹那，屏幕中的 3 只小狗突然变成 4 只小狗。
4 只小狗的图片构成一个流形(或者连通分支)，3 只小狗的图片构成另一个分支，在 4 只小狗图片流形的边界处，有个临界事件:四只小狗彼此遮挡，图片中只能看到 3 只小狗。
Sora 的扩散模型没有识别出流形的边界，而是冲破这边界，在 3 只小狗图片的流形和 4 只小狗图片的流形间跨越。
正确的做法应该是先识别流形的边界，然后在物理无法跨越的情形下(如 3 只边 4 只)，在边界处返折回原来流形。
Sora 无法生成关键临界态的图像可能有如下原因:
物理过程中的不同稳衡态样本生成数据流形的不同联通分支，临界态样本在稳恒态流形边界附近，在两个稳衡态流形边界之间。
Sora 采用的目前最为热门的扩散模型，在计算传输映射的时候，必然会光滑化数据流形的边界，从而混淆不同的模式，直接跳过临界态图像的生成。因此视频看上去从一个状态突然跳跃到另外一个状态，中间最为关键的倾倒过程缺少，导致物理上的荒谬。
采用丘成桐先生发明的几何变分法求解最优传输映射，可以解决这个关键问题。

奇异集合

最优传输映射的奇异集合模式坍塌和模式混淆可以由最优传输映射的正则性来解释. 如果目标测度的支撑集非凸, 则最优传输映射可能非连续, 在奇异集合上间断. 由 Brenier 极分解定理, 一般的传输映射是最优传输映射与保测度同胚的复合. 因此, 在这种情形下, 传输映射也是非连续的. 深度神经网络只能表达连续映射, 因而无法表示一般的传输映射. 训练过程或者无法收敛, 或者收敛到某个连续的传输映射, 其目标区域限制在某些模式, 而遗漏其他模式, 这导致了模式坍塌; 或者收敛到某个连续传输映射, 其像覆盖所有模式, 同时也覆盖了模式之间的空隙, 这导致模式混淆.

论文细节

前面一部分介绍了生成模型的建模合理性假设：流行定则，以及现在流行的生成模型可以统一到一个框架：主空间-对偶空间-隐空间。以及现在生成模型存在一些问题：相关性和因果律的矛盾、局部合理和整体荒谬、临界状态缺失。这些问题主要问题在于建模的简化和为了求解的方便做的各种约束，导致了生成内容和实际物理世界的不符。针对此文章给出了一些可能的数学建模方向。
接下来部分会给出现在最火也是目前在实际效果上最好最接近真实物理实际的生成模型的介绍–《stable duffusion 3》论文。

总览：

这篇文章介绍了一种用于高分辨率文本到图像合成的新方法，展示了这种方法相比于现有的扩散模型在性能上的优势。文章的核心贡献包括：

进行了大规模的系统研究，比较不同的扩散模型和校正流模型，以确定最佳设置。为此，引入了新的噪声采样器，以提高校正流模型的性能。
设计了一种新的、可扩展的文本到图像合成架构，允许网络内文本和图像令牌流之间的双向混合。与现有的主干网络如UViT和DiT相比，展示了其优势。
对模型进行了规模化研究，证明了其遵循可预测的规模化趋势，并通过如T2I-CompBench、GenEval等指标以及人类评分来展示较低的验证损失与改进的文本到图像性能之间的强相关性。

文章还介绍了无模拟训练流的方法，提出了一种新的时间步采样方法，改进了之前的扩散训练公式，保留了校正流在少步采样区域的有利属性。此外，还展示了基于变压器的MM-DiT架构的优势，该架构考虑到了文本到图像任务的多模态性质。
实验部分，文章通过在ImageNet和CC12M数据集上训练模型，并使用不同的采样设置评估模型，来理解哪种方法最有效。结果表明，使用合成标注的模型明显优于仅使用原始标注的模型。
最后，文章还讨论了数据预处理和模型训练的细节，包括过滤训练数据以限制不希望的能力，预计算图像和文本嵌入，以及如何通过调整文本编码器的使用来权衡模型性能和内存效率。文章的结论强调了校正流模型在文本到图像合成中的扩展分析，提出的时间步采样方法，以及基于变压器的MM-DiT架构的优势。

论文实际工作

新颖点

改进噪声采样方法

修正流（Rectified Flow）是一种有前景的方法，用于加速预训练的扩散模型，Stable Diffusion 3的训练也采用RF 损失。然而，之前基于快速流的Stable Diffusion模型（如InstaFlow）的生成质量并不令人满意。为此，RF作者团队对原始的再流（reflow）流程进行了几项改进，显著提高了基于流的快速SD（Stable Diffusion）的性能。新模型学习了一个分段线性概率流，它可以在仅4步内高效生成高质量图像，称为分段修正流（PeRFlow）。此外，模型权重的offset： $\Delta W = W_{PeRFlow}-W_{SD}$ ，可以直接作为SD基础模型上的即插即用加速器模块。
具体来说，PeRFlow具有几个特点：

快速生成：PeRFlow可以在仅4步内生成高保真度图像。由PeRFlow生成的图像比其他快速采样模型（如LCM）生成的图像更加多样化。此外，由于PeRFlow是一个连续的概率流，它支持8步、16步甚至更多采样步骤，以单调提高生成质量。
高效训练：基于SD 1.5的PeRFlow微调仅需4,000次训练迭代（批量大小为1024）。相比之下，之前的快速流式文本到图像模型InstaFlow在同样的批量大小下微调需要25,000次训练迭代。此外，PeRFlow不需要大量的数据生成来进行再流。
与SD工作流程兼容：PeRFlow与各种风格化的LORAs以及预训练SD模型的生成/编辑流程兼容。作为一个即插即用的模块，可以直接与其他条件生成流程结合，如ControlNet、IP-Adaptor、多视图生成。
支持CFG：PeRFlow完全兼容CFG，并支持负提示，这对于将生成质量推向更高水平非常重要。而且实际实验中，CFG的scale与原始扩散模型相似。

算法原理

修正流（Rectified Flows）提出了通过线性插值构建基于流的生成模型的方法，学习到的流的轨迹可以通过一种称为再流（reflow）的特殊操作来拉直。然而，再流过程需要通过模拟整个预训练的概率流来生成一个合成数据集，这消耗了大量的存储和时间，使得它不适合训练大规模的基础模型。为了解决这个限制，PeRFlow采用分段修正流。通过将预训练的概率流分成多个段，并在每个段内使用再流拉直中间的概率流，就可得到了一个可以在很少的步骤内进行采样的分段线性概率流。这种分而治之的策略成功避免了整个常微分方程（ODE）轨迹的繁琐模拟，从而允许载训练中在线执行分段再流操作。

如图所示，预训练的概率流（可以从预训练的扩散模型转换而来）将随机噪声分布映射到数据分布。使用常微分方程（ODE）求解器从曲线流中采样需要许多步骤。相反，PeRFlow将采样轨迹分成多个段（这里以两个为例），并通过重流操作使每个段变直。由于其分段线性的特性，一个训练良好的PeRFlow可以在很少的步骤中生成高质量的图像。

双向多模态特征融合架构

对于文本到图像的生成，Stable Diffusion 3 模型必须同时考虑文本和图像两种模式。因此，论文作者称这种新架构为 MMDiT，意指其处理多种模态的能力。与之前版本的 Stable Diffusion 一样，作者使用预训练模型来推导合适的文本和图像表征。具体来说，他们使用了三种不同的文本嵌入模型 —— 两种 CLIP 模型和 T5—— 来编码文本表征，并使用改进的自编码模型来编码图像 token。

改进的多模态扩散 transformer：MMDiT 块。
SD3 架构基于 Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合作提出的 DiT。由于文本嵌入和图像嵌入在概念上有很大不同，因此 SD3 的作者对两种模态使用两套不同的权重。如上图所示，这相当于为每种模态设置了两个独立的 transformer，但将两种模态的序列结合起来进行注意力运算，从而使两种表征都能在各自的空间内工作，同时也将另一种表征考虑在内

大规模模型扩展和分析

展示了该架构遵循可预测的规模化趋势，并且较低的验证损失与通过各种指标和人类评估测量的改进的文本到图像合成性能强相关。
研究了所提出模型和方法在不同参数规模(最高8B)下的表现
发现模型性能遵循可预测的规模化趋势,验证损失与文本图像生成性能(通过自动和人工评估)高度相关
最大规模的模型超越了现有最好的开源和商业模型

实验验证设计

评估指标设计

评估指标的选择:

验证损失(validation loss):在COCO-2014验证集上计算不同时间步长的损失值。
CLIP分数:使用CLIP L/14模型对生成图像进行评分。
FID(Fréchet Inception Distance):计算生成图像和验证集图像之间CLIP L/14特征的FID距离。
人类偏好评分:在Parti-prompts基准测试的子集上进行人工评估,包括视觉美学、提示遵从性和排版生成等方面。
GenEval基准测试:评估模型在各种能力上的表现,如对象计数、颜色、位置等。

指标分析

在ImageNet和CC12M数据集上训练61种不同的模型公式,使用相同的优化算法、模型架构、数据集和采样器,以保证比较的公平性。
使用不同的采样器设置(guidance scale和采样步数)生成样本,并用CLIP分数和FID进行评估。
使用非支配排序算法对不同的模型公式进行排名,综合考虑EMA权重、数据集选择和采样设置的影响。
比较不同架构(如DiT、CrossDiT和MM-DiT)在CC12M数据集上的文本到图像生成性能。
在Parti-prompts基准测试上进行人类偏好评估,将最大的模型与DALL-E、Stable Diffusion等SOTA模型进行比较。

结论

引入新的噪声采样器可以提高rectified flow模型的性能,优于此前已知的采样器。
提出的MM-DiT架构考虑了文本到图像任务的多模态特性,优于已有的UViT和DiT等架构。
模型扩展研究表明,验证损失的降低与文本到图像性能的提高密切相关。最大的8B参数模型在定量评估和人类偏好评分上超过了SOTA模型。
更大的模型不仅性能更好,而且需要更少的采样步骤达到峰值性能。

通过系统的实验设计和严谨的结果分析,这项工作全面评估了提出方法的有效性,为高分辨率文本到图像合成的发展提供了重要参考

参考：

1.https://piecewise-rectified-flow.github.io
2.https://swarma.org/?p=48487
3.https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

远洋之帆

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
diffusion transformer从数学到实践 (1)

在深入嵌入理论之前，首先需要理解流形的概念。在数学中，流形是一个可以局部近似于欧几里得空间的拓扑空间，这意味着每一点都有一个邻域，这个邻域与某个欧几里得空间中的开集同胚（即存在一一对应且连续的映射）。流形可以视为更复杂空间的简化模型，它允许我们使用欧几里得空间的直观和技术来研究更广泛的几何对象。
复制链接

扫一扫