Sora火爆出圈！刷新文生视频SOTA，扩散transformer或成最大赢家

最新推荐文章于 2024-10-13 21:11:07 发布

深度之眼

最新推荐文章于 2024-10-13 21:11:07 发布

阅读量2.3k

点赞数 18

分类专栏：深度学习干货人工智能干货文章标签：人工智能深度学习论文扩散模型 sora transformer

本文链接：https://blog.csdn.net/weixin_42645636/article/details/136173305

版权

深度学习干货同时被 2 个专栏收录

535 篇文章 201 订阅

订阅专栏

人工智能干货

508 篇文章 28 订阅

订阅专栏

Sora的走红源于其背后的DiffusionTransformer技术，Meta的DiT和GenTron等模型展示了transformer在图像和视频生成中的强大潜力。文章介绍了几种创新的transformer扩散模型，如DiT-3D、PixArt-α和SiT，强调了它们在效率和性能上的提升。

摘要由CSDN通过智能技术生成

最近各大社交媒体以及朋友圈都被Sora刷爆了，生成的视频上线一个、疯传一个...所以它到底为什么这么火？

根据OpenAI最新发布的技术报告显示，Sora背后“text-to-video”的模型基础是Diffusion Transformer Model，这是一种结合了 Transformer 架构和扩散模型的图像、视频及其他数据的生成模型。也就是说，Sora其实是一个基于transformer的扩散模型。

这类模型不仅在理论上具有创新性，而且在实际应用中也显示出了强大的潜力。比如DiT模型（Sora的基础）、GenTron模型...在图像和视频生成等领域都已经杀疯了。

DiT模型：Meta提出的完全基于transformer架构的扩散模型，不仅将transformer成功应用在扩散模型，还探究了transformer架构在扩散模型上的scalability能力。
GenTron模型：一种基于Transformer的扩散模型，在针对SDXL的人类评估中，GenTron在视觉质量方面取得了51.1%的胜率（19.8%的平局率），在文本对齐方面取得了42.3%的胜率（42.9%的平局率）。

鉴于Sora的爆炸式成功，基于transformer的扩散模型已然成为了一个新兴的热门研究方向，发文潜力巨大。为帮助同学们快速了解并掌握这一热点，我整理了11种最新的transformer扩散模型，每种模型配套原文以及开源代码也照例放上了，希望能给各位的论文添砖加瓦。

论文原文以及开源代码需要的同学看文末

DiT模型

Scalable Diffusion Models with Transformers

基于transformer的扩散模型，称为Diffusion Transformers（DiTs）

方法：通过构建和评估DiT设计空间，研究了transformer的扩展行为与网络复杂度和样本质量之间的关系。研究结果表明，通过简单地扩展DiT并使用高容量的骨干网络，可以在类条件256x256 ImageNet生成基准测试中实现2.27 FID的最新成果。与像素空间扩散模型相比，DiTs在使用的Gflops只是其一小部分，因此具有较高的计算效率。此外，DiTs还可以应用于像素空间，使得图像生成流程成为混合方法，使用现成的卷积VAEs和基于transformer的DDPMs。

创新点：

在扩散模型中引入了transformer类的标准设计，以取代传统的U-Net设计，从而提供了一种新的架构选择。
引入了潜在扩散模型（LDMs），通过将图像压缩为较小的空间表示，并在这些表示上训练扩散模型，从而解决了在高分辨率像素空间中直接训练扩散模型的计算问题。

GenTron模型

Delving Deep into Diffusion Transformers for Image and Video Generation

基于Transformer的扩散模型，用于高质量文本到图像/视频生成

方法：首先克服了原始DiT模型的局限性，该模型仅能处理预定义类别（例如1000个）的限制，通过使用从开放世界的自由文本标题中得出的语言嵌入，而不是预定义的独热类别嵌入。在此过程中，作者全面研究了各种条件策略，包括（1）条件架构：自适应层归一化（adaLN）与交叉注意力；以及（2）文本编码方法：通用大型语言模型与多模态模型的语言塔，或两者的组合。作者还进行了比较实验并进行了详细的实证分析，以评估这些条件策略的有效性。

创新点：

该方法在属性绑定、物体关系和复杂组合等所有领域都展现出优异的性能，尤其在颜色绑定方面表现出色。与之前的最先进基准相比，该方法提高了7%以上。
作者的研究对基于Transformer的T2I扩散模型进行了全面系统的研究，重点关注文本条件方法和Transformer架构的可扩展性。作者通过将GenTron扩展到超过30亿个参数来解决了DiT模型的局限性。
作者在T2V生成方面进行了开创性的尝试，引入了无运动引导的创新技术，有效地对T2I生成模型进行了优化，生成了高质量的视频。与现有方法相比，GenTron在人类评估和T2I-CompBench评估中表现出优越性能。

其他transformer扩散模型

DiT-3D模型

Exploring Plain Diffusion Transformers for 3D Shape Generation

新型的用于三维形状生成的扩散Transformer

方法：将3D位置和补丁嵌入结合到Transformer块中，以自适应地聚合来自体素化点云的输入。为了降低3D Transformer的计算成本，作者在Transformer块中引入了3D窗口注意力机制。最后，作者使用线性和去体素化层来预测去噪的点云。

创新点：

DiT-3D是第一个用于点云形状生成的纯扩散Transformer架构，能够有效地在体素化点云上执行去噪操作。
DiT-3D采用了几种简单而有效的修改，包括3D位置和补丁嵌入、3D窗口注意力和在ImageNet上的2D预训练。这些修改显著提高了DiT-3D的性能，同时保持了效率。

PIXART-α模型

FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS

基于Transformer的T2I扩散模型

方法：该模型通过三个核心设计实现了高效的训练和竞争力强的图像生成质量。首先，通过将训练策略分解为像素依赖、文本图像对齐和图像美学质量三个步骤，实现了训练过程的高效性。其次，通过在Diffusion Transformer (DiT)中引入交叉注意力模块，将文本条件注入模型并优化计算密集的类别条件分支，提高了模型的效率。最后，通过使用高信息密度的数据和自动标注技术，改善了现有文本图像对齐数据集的不足，提高了模型的训练效率。

创新点：

PIXART-α的训练速度明显超过现有的大规模T2I模型，例如PIXARTα仅需Stable Diffusion v1.5的12%的训练时间，节省了近30万美元的成本，并减少了90%的CO2排放。
PIXART-α在图像质量、艺术性和语义控制方面表现出色，具有出色的保真度和精确性。
PIXART-α能够生成高分辨率的图像，具有丰富的细节，并能够通过文本提示直接操纵图像风格，展示了其多样性和创造力。
PIXART-α通过引入DreamBooth和ControlNet等定制扩展方法，进一步扩展了其能力，能够生成高保真度和多样性的个性化图像扩展。

SiT模型

Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

一系列基于扩散Transformer（DiT）主干的生成模型

方法：SiT利用插值框架，以一种比标准扩散模型更灵活的方式连接两个分布，可以对影响基于动态传输的生成模型的各种设计选择进行模块化研究，包括使用离散时间还是连续时间学习、决定模型学习的目标、选择连接分布的插值器以及部署确定性或随机采样器。

创新点：

SiT是一种基于Diffusion Transformers (DiT)的生成模型，通过插值框架连接两个分布，比标准扩散模型具有更大的灵活性。
SiT通过从离散时间转换为连续时间、改变模型预测、选择插值器和选择扩散系数等一系列设计选择，实现了与DiT相比的一致性性能改进。
SiT的设计选择包括学习连续时间、学习速度模型或得分模型、选择连接两个分布的插值器以及使用确定性或随机采样器等。这些选择对性能有显著影响，可以通过仔细选择来改善生成模型的性能。