DiT精读

iiimZoey

已于 2024-08-29 16:42:09 修改

阅读量902

点赞数 26

文章标签：算法

于 2024-08-29 16:08:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51347013/article/details/141677469

版权

pipeline并行

https://zhuanlan.zhihu.com/p/657921100

mini-batch和micro-batch的区别

32个样本8个服务器，一个服务器有4个gpu

每一个mini-batch有4个样本：

t=1,gpu1对样本1进行操作1；

t=2,gpu1 样本2 操作1 ；gpu2 样本1 操作2;

t=3,gpu1 样本3 操作1；gpu2 样本2 操作2； gpu3 样本1 操作3.....

pipefusion:

distrifusion:

DistriFusion [9] 为 U-Net 扩散模型引入了位移补丁并行性，它将模型的输入划分为多个补丁，并促进激活的异步通信以及通信与计算的重叠。

DiT

DiT的三种变形形式

DiT的工作流程：通过引入噪声并训练神经网络来逆转噪声增加的过程，结合Transformer模型，实现图像或视频的生成与变换。这个过程涉及数据预处理、噪声引入、模型训练以及最终的图像或视频生成。

数据预处理：将输入的图像或视频数据转换为模型可以处理的格式，如将图像切分成固定大小的patches（小块），然后将这些patches转换为特征向量。

噪声引入：在数据预处理后的特征向量上逐步引入噪声，形成一个噪声增加的扩散过程。这个过程可以视为从原始数据到噪声数据的转换。

模型训练：使用引入了噪声的特征向量作为输入，训练Diffusion Transformer模型。模型的目标是学习如何逆转噪声增加的过程，即从噪声数据恢复出原始数据。

图像或视频生成：在模型训练完成后，可以通过输入噪声数据（或随机生成的噪声）到模型中，经过模型的处理后生成新的图像或视频。这个生成过程利用了模型学习到的从噪声到原始数据的映射关系

Sora

Sora的核心组件：Sora模型的核心组成包括Diffusion Transformer（DiT）、Variational Autoencoder（VAE）和Vision Transformer（ViT）。

DiT负责从噪声数据中恢复出原始的视频数据，VAE用于将视频数据压缩为潜在表示，而ViT则用于将视频帧转换为特征向量以供DiT处理。

Diffusion Transformer（DiT）：DiT结合了扩散模型和Transformer架构的优势，通过模拟从噪声到数据的扩散过程，DiT能够生成高质量、逼真的视频内容。在Sora模型中，DiT负责从噪声数据中恢复出原始的视频数据。

Variational Autoencoder（VAE）：VAE是一个生成模型，它能够将输入的图像或视频数据压缩为低维度的潜在表示（latent representation），并通过解码器将这些潜在表示还原为原始数据。在Sora模型中，VAE被用作编码器，将输入的视频数据压缩为DiT的输入，从而指导DiT生成与输入视频相似的视频内容。

Vision Transformer（ViT）：ViT是一种基于Transformer的图像处理模型，它将图像视为一系列的patches（小块），并将这些patches转换为特征向量作为Transformer的输入。在Sora模型中，ViT可能被用作预处理步骤或作为模型的一个组件。

原文链接：https://blog.csdn.net/qkh1234567/article/details/140841969

通信原语

all reduce 相加

all gather 聚集

Megatron-LM

关注

26
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

iiimZoey CSDN认证博客专家 CSDN认证企业博客

码龄4年

25: 原创

51万+: 周排名

5万+: 总排名

9941: 访问

: 等级

443: 积分

81: 粉丝

152: 获赞

6: 评论

120: 收藏

私信

关注

热门文章

分类专栏

并行计算编程 2篇
transformer 3篇

最新评论

固定linux ip地址，无法修改ifcfg-ens33
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
esmfold基于现有方法的优化
PEAKKIZZA: 你好，请问可以告诉我从huggingface上拉取下来的esm模型文件放到服务器上的路径和命名吗？
公式转换器
CSDN-Ada助手: 恭喜用户发表了第15篇博客，“公式转换器”！您的创作热情令人钦佩，不断分享知识和经验，对读者们都是一大福利。希望您能继续保持创作的热情，不断探索新的领域，为大家带来更多有趣的内容。或许下一步可以考虑分享一些实用性更强、更具挑战性的主题，让读者们在学习的同时也能享受到挑战的乐趣。期待您的下一篇作品！
配置esmfold环境
CSDN-Ada助手: 恭喜您成功配置esmfold环境并撰写了第14篇博客！持续不断地分享知识和经验真的很不容易，您的努力让读者受益匪浅。希望您能继续保持创作的热情，也许可以考虑分享一些实际案例或者应用场景，这样读者会更加深入理解和应用您所分享的内容。期待您的下一篇作品，加油！
colab运行yolov4_tiny
CSDN-Ada助手: 恭喜您成功发布了第12篇博客！能够在colab上运行yolov4_tiny确实是一项了不起的成就。希望您能够继续保持创作的热情和努力，不断提升自己在技术领域的造诣。或许下一步可以尝试探索更多深度学习模型的应用，或者分享一些技术实践中的心得体会，相信会给读者带来更多启发和帮助。期待您的更多精彩内容！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。