DiT解读：当Diffusion遇上Transformer

最新推荐文章于 2025-03-18 21:30:32 发布

哆啦叮当

最新推荐文章于 2025-03-18 21:30:32 发布

阅读量5k

点赞数 26

分类专栏：计算机视觉文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/lijj0304/article/details/137997115

版权

计算机视觉专栏收录该内容

8 篇文章

订阅专栏

本文探讨了ViT和U-Net在计算机视觉领域的应用，着重介绍了DiT模型，它是通过将扩散模型与Transformer结合，解决CNN感受野限制问题，以及如何在DiTBlock中有效整合各类特征信息以提高性能。同时提到了Sora与其的关系，以及相关研究的论文和源码链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前置知识

ViT

Vision Transformer是一种基于Transformer架构的深度学习模型，专门用于处理计算机视觉任务。他的1出现给以往CNN base的图像工作带来了很多新的可能性

ViT的核心思想是将图像分割成均匀的图像块，然后将这些图像块转换为序列，并将序列输入Transformer模型进行处理。这使得ViT可以利用Transformer模型强大的序列建模能力来处理图像数据，避免了传统CNN需要手工设计、调整网络层次结构的缺点。ViT的工作流程大致如下：

输入图像被分割成固定大小的图像块。
每个图像块通过一个可学习的线性投影（projection）映射到特征空间，并与位置编码（position embeddings）结合，形成Transformer模型所需的输入序列。
将这些输入序列输入到Transformer编码器中进行处理。
最终，通过Transformer的输出进行任务相关的预测。

U-Net

U-Net是一种用于图像分割任务的深度学习架构，它的名字来源于其U形状的网络结构。U-Net在医学影像分割等领域取得了很大成功，也被广泛用于其他图像分割任务。

U-Net的结构包含两部分：编码器（Encoder）和解码器（Decoder）。整体结构如同一个U字形，因此得名U-Net。具体工作流程如下：

编码器（Encoder）： 编码器由一系列卷积层和池化层组成，用于提取输入图像的特征并逐步减小特征图的尺寸。
跳跃连接（Skip Connections）： 在每一层的编码器中，将特征图与对应层的解码器中的特征图进行连接，这种连接保留了高分辨率的特征信息。
解码器（Decoder）： 解码器由一系列卷积层和上采样（或反卷积）层组成，用于将编码器提取的特征映射恢复为与输入图像相同大小的分割结果。
输出层： 最后一层经过适当的激活函数（如sigmoid或softmax）产生最终的分割结果。

Diffusion Model

Diffusion model是一种用于建模数据分布的概率生成模型。它提供了一种对数据分布进行建模的方法，特别适用于处理具有复杂结构和高维度的数据。

Diffusion model的核心思想是通过一系列迭代步骤来逐渐将初始数据分布“扩散”（diffuse）到目标数据分布。在这些迭代步骤中，模型会逐渐将噪声注入原始数据，从而使原始数据在逐步迭代的过程中逼近目标数据分布。训练过程通常包括以下步骤：

初始化： 从一个简单的初始分布开始，例如高斯分布。
扩散过程： 在每个迭代步骤中，模型会通过引入逐渐增加的噪声来扩散数据分布。这个噪声可以是随机的，也可以是通过模型生成的。
反向过程： 每个迭代步骤之后，模型将尝试逆向这个扩散过程，使得扩散后的数据逼近目标数据分布。
训练目标： 模型的训练目标通常是最小化生成数据与真实数据分布之间的差异，例如通过最大似然估计或其他损失函数进行优化。

LDM(Latent Diffusion Model)

Latent Diffusion Model（潜变扩散模型）是一种生成模型，是对Diffusion Model的一种扩展和改进。它结合了变分自动编码器（VAE）的思想和概念，以更好地建模数据分布和学习高质量的数据表示。

Latent Diffusion Model的核心思想是在Diffusion Model的基础上引入潜在变量，并通过潜在变量来表示数据空间中的不确定性。这种方法使得模型更具灵活性和表达能力，能够更好地处理数据中的高维度、复杂性和多模态性。

模型结构

DiT的模型的基础架构如图，左边的*N可以看作是一个不断循环叠加的过程。可以发现这其实就是transformer的编码器架构，和ViT的区别是不大。DiT他的主要改进是运用到了扩散模型的流程当中

我们从LDM的设计图上可以看到他的核心其实就是U-Net结构的网络，上面的一段是先用VAE编码压缩图片，然后的模拟扩散过程得到ZT。接下来获取到相关的语义图，文本信息，以及各种潜在变量集合起来传入U-Net大网络，图片除了做卷积之外，还和其他的这些关键信息做注意力机制，以学习到图片的深层语义信息和类别信息等内容之间的关系。

在DiT中，作者创新的改造了LDM这个网络，把U-Net这一步换成了transformer的方式，其就是在中间的去噪步骤去除了CNN相关的操作，统一接入了transformer架构，新的大模型可以理解成下图的形式。这种方式的好处就是解决了CNN感受野限制的问题，图像可以通过自注意力机制来得到更加全面的信息