Diffusion Transformer（DiT）—— 图像视频生成领域的新王，Sora的背后功臣

FLY AGAIN

已于 2024-09-27 23:33:01 修改

阅读量1.4k

点赞数 26

分类专栏： AIGC 9月挑战·日更博客文章标签： AIGC ai绘画 transformer 人工智能

于 2024-09-27 22:38:44 首次发布

本文链接：https://blog.csdn.net/Ma_mba_/article/details/142603188

版权

AIGC 同时被 2 个专栏收录

15 篇文章

订阅专栏

9月挑战·日更博客

15 篇文章

订阅专栏

在这里插入图片描述

项目首页：DiT
论文链接：Scalable Diffusion Models with Transformers

1. 引言

扩散模型近年来在图像生成领域取得了显著进展。其通过逐步向图像中加入噪声并在反向过程中去噪，实现了高质量的图像生成。DiT，即Diffusion Transformer，是一种新型的扩散模型，它将传统扩散模型中的U-Net架构替换为Vision Transformer（ViT），并针对Diffusion Model特点修改模型，旨在提升图像生成性能。

2. 扩散模型的基础

扩散模型的核心思想是通过将图像逐渐转换为噪声并反向还原。在该过程中，噪声估计网络负责估计添加的噪声，并引导模型去噪。大多数传统扩散模型使用U-Net作为骨干架构，而DiT通过Transformer架构替代U-Net，显示出Transformer在生成任务中的潜力。

3. DiT的模型架构

DiT模型的基础架构与Vision Transformer（ViT）类似，但针对扩散过程进行了优化。它使用了自适应层归一化（AdaLN）层来注入条件输入，如扩散时间步或类别标签。这些AdaLN层显著提升了模型的生成质量，并在去噪过程的残差连接前进行激活调制，使模型在生成图像时更加准确和高效。
Diffusion Transformers（DiTs）是一种新型的扩散模型，它利用变换器（transformer）架构代替了传统扩散模型中常用的U-Net骨干网络。DiTs的设计灵感来自于视觉变换器（Vision Transformers，ViTs），ViTs已证明在视觉识别任务中比传统的卷积网络更加有效。
在这里插入图片描述

3.1 基础架构

Patchify层：这是DiT的第一个层次，它将输入图像（或输入潜变量）中的每个小块（patch）线性嵌入到变换器的token中。小块的大小对应于变换器token的数量。小块尺寸越小，变换器token的数量就越多。
DiT块：输入token通过一系列的DiT块进行处理。这些块与标准的视觉变换器（ViT）块非常相似，但进行了一些重要的调整以适应扩散模型的需要。

3.2 DiT块设计

自适应层归一化（adaLN）：在ViT块中，标准的层归一化层被自适应层归一化层所替代。这些adaLN层在块内任何残差连接之前调节激活值，并且将每个DiT块初始化为恒等函数。
注入条件输入：DiT Block可以处理条件输入，例如噪声时间步长或类别标签。这些条件输入通过在DiT块中注入自适应层归一化层来处理。

3.3 扩展DiT

在这里插入图片描述

模型大小：DiT模型通过增加模型深度和宽度来扩展，提供了不同配置的模型，如DiT-S, DiT-B, DiT-L, 和 DiT-XL。
输入token数量：通过改变输入潜变量的小块尺寸来调整输入token的数量。小块尺寸减半会导致输入token数量增加四倍。

3.4 训练细节

训练步骤：DiT模型在ImageNet数据集上进行训练，使用了与之前工作相同的训练步骤。
分类器自由引导：在生成样本时，DiT模型使用了分类器自由引导技术来提高样本质量。

3.5 附加信息

DiT块变体：论文中还探讨了几种不同的DiT块设计，例如交叉注意力块和包含上下文条件的块。
计算效率：DiT模型在保持高性能的同时，相对于基线模型具有更高的计算效率。

总的来说DiT模型通过将变换器架构应用于扩散模型，实现了在图像生成任务中的显著性能提升。通过扩展模型大小和输入token的数量，DiT模型在保持计算效率的同时，达到了新的性能高度。

4. DiT的扩展与性能提升

DiT模型可以通过增加模型的深度和宽度进行扩展，这种扩展方式来自于ViT文献的启发。通过调整输入图像的块大小（patch size），DiT能够处理不同大小的数据集，并在保持高性能的同时降低计算复杂度。此外，DiT模型的可扩展性使其在处理复杂任务时表现出色，尤其是在大规模数据集上的表现。
在这里插入图片描述

与传统的扩散模型相比，DiT在图像生成任务中表现出了更强的性能。其生成质量通过Fréchet Inception Distance（FID）评估，DiT模型在多个分辨率下的FID得分均优于其他扩散模型。例如，DiT-XL模型在生成256x256和512x512分辨率图像时，分别取得了2.27和3.04的最佳FID分数，超过了先前所有模型。

6. 应用与前景

DiT模型的一个典型应用是Sora模型，它是一种先进的视觉技术模型，能够生成高质量、逼真的视频内容。Sora模型的核心组件包括Diffusion Transformer（DiT）、Variational Autoencoder（VAE）和Vision Transformer（ViT），其中DiT负责从噪声数据中恢复出原始的视频数据。
随着DiT在扩散模型中的成功应用，未来其有望在图像生成、视频生成等领域得到更广泛的应用。DiT的高效架构和强大的扩展能力使其成为未来生成模型研究的重要方向。