DiT精读

pipeline并行

https://zhuanlan.zhihu.com/p/657921100

mini-batch和micro-batch的区别

32个样本8个服务器,一个服务器有4个gpu

每一个mini-batch有4个样本:

t=1,gpu1对样本1进行操作1;

t=2,gpu1 样本2 操作1 ;gpu2 样本1 操作2;

t=3,gpu1 样本3 操作1;gpu2 样本2 操作2; gpu3 样本1 操作3.....

pipefusion:

distrifusion:

DistriFusion [9] 为 U-Net 扩散模型引入了位移补丁并行性,它将模型的输入划分为多个补丁,并促进激活的异步通信以及通信与计算的重叠

DiT

DiT的三种变形形式

DiT的工作流程:通过引入噪声并训练神经网络来逆转噪声增加的过程,结合Transformer模型,实现图像或视频的生成与变换。这个过程涉及数据预处理、噪声引入、模型训练以及最终的图像或视频生成。

    数据预处理:将输入的图像或视频数据转换为模型可以处理的格式,如将图像切分成固定大小的patches(小块),然后将这些patches转换为特征向量。

    噪声引入:在数据预处理后的特征向量上逐步引入噪声,形成一个噪声增加的扩散过程。这个过程可以视为从原始数据到噪声数据的转换。

    模型训练:使用引入了噪声的特征向量作为输入,训练Diffusion Transformer模型。模型的目标是学习如何逆转噪声增加的过程,即从噪声数据恢复出原始数据。

    图像或视频生成:在模型训练完成后,可以通过输入噪声数据(或随机生成的噪声)到模型中,经过模型的处理后生成新的图像或视频。这个生成过程利用了模型学习到的从噪声到原始数据的映射关系

Sora

Sora的核心组件:Sora模型的核心组成包括Diffusion Transformer(DiT)、Variational Autoencoder(VAE)和Vision Transformer(ViT)。

DiT负责从噪声数据中恢复出原始的视频数据,VAE用于将视频数据压缩为潜在表示,而ViT则用于将视频帧转换为特征向量以供DiT处理。

    Diffusion Transformer(DiT):DiT结合了扩散模型和Transformer架构的优势,通过模拟从噪声到数据的扩散过程,DiT能够生成高质量、逼真的视频内容。在Sora模型中,DiT负责从噪声数据中恢复出原始的视频数据。

    Variational Autoencoder(VAE):VAE是一个生成模型,它能够将输入的图像或视频数据压缩为低维度的潜在表示(latent representation),并通过解码器将这些潜在表示还原为原始数据。在Sora模型中,VAE被用作编码器,将输入的视频数据压缩为DiT的输入,从而指导DiT生成与输入视频相似的视频内容。

    Vision Transformer(ViT):ViT是一种基于Transformer的图像处理模型,它将图像视为一系列的patches(小块),并将这些patches转换为特征向量作为Transformer的输入。在Sora模型中,ViT可能被用作预处理步骤或作为模型的一个组件。

                    
原文链接:https://blog.csdn.net/qkh1234567/article/details/140841969

通信原语

all reduce 相加

all gather 聚集

Megatron-LM

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值