大模型-Sora技术解读

最新推荐文章于 2024-09-14 21:45:00 发布

华山菠萝吹雪

最新推荐文章于 2024-09-14 21:45:00 发布

阅读量1.2k

点赞数 16

文章标签：笔记 AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jennieg/article/details/138092346

版权

本文详细解读了Sora技术，涉及其背后的patch分析、网络结构（DiT+VAE+CLIP）、3D一致性、参数量与一致性、以及训练数据策略。Sora利用Transformer和扩散模型处理视频数据，实现了动态摄像机运动的视频生成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考视频：Datawhale-bilibili

文章目录

一、Sora背后解读与patch分析
参数量与一致性解读
- 训练数据
技术与实战
- 看懂Sora
- 训练流程

一、Sora背后解读与patch分析

数据工程

patches

借鉴Vit中patch的格式，对标GPT中token的形式，统一互联网不同大小格式的视频与图像数据为patches的格式输入，具有可拓展性，能匹配模型结构，能控制生成尺寸。

原始尺寸训练

为了使空间更合理以及时间更连续，在原始图像上训练，不需要数据增强，避免破坏先验信息。同时不需要人为统一输入尺寸，Encoder能将不同尺寸进行压缩到patches的形式。

输入->模型

训练阶段，视频按照1帧或间隔n帧用DALLE3（CLIP）形成对应描述文本（tex-video），再输入模型。推理阶段用GPT4将用户输入规范化后再给模型。

网络结构

估计是DiT
在这里插入图片描述
简单来讲是Transformer+ddpm，也就是用Transformer结构替换掉stable Diffusion中的U-Net，实现噪声预测与去噪。模型越大，patches越小，效果越好。
（OpenAI一贯是数据够多，结构够大，效果就好。）
Sora=VAE encoder + DiT（DDPM）+VAE decoder +CLIP

Sora影响

3D一致性：能生成具有动态摄像机运动的视频，随着虚拟摄像机的运动，人物和场景在三维空间保持一致。不过可能与3D高斯或Nerf类似带位姿的方法有差距。
物体永久性与长视频一致性。
存在与世界互动效果。

参数量与一致性解读

参数量大约30B左右，视觉/大模型参数量比LLM参数量小一些。
Sora与之前的方法很大的不同是使用DiT，参考自回归进行训练，但是否使用插帧不确定。
视频包含4维信息，其中patch如何记录时间序列，可能类似以下方法：
在这里插入图片描述
不同尺寸进行训练时还参考谷歌方法进行优化，把时间信息加进去。文本的token是离散化的，但视频是连续的。

训练数据

猜测：将视频切成一分钟内，缩小token数；使用高质量的图像进行训练；有良好的数据配比。

技术与实战

看懂Sora

在这里插入图片描述
视频分块->一维向量，文本信息->图像语义，基于扩散模型的原理。

训练流程

在这里插入图片描述
patch既包含时间信息，又包含空间信息。Sora事实上是一个在不同时长，分辨率和宽高比的视频及图像上训练的扩散模型。DDPM与之前的扩散模型不同之处在于学习噪声而非直接学习图像。

华山菠萝吹雪

博客等级

码龄5年

14
原创

162
点赞

186
收藏

143
粉丝

关注

私信

热门文章

分类专栏

笔记

展开全部收起

最新评论

大模型-Sora技术解读
CSDN-Ada助手: 恭喜您发布了第14篇博客《大模型-Sora技术解读》，内容相当精彩！您对Sora技术的解读深入浅出，让读者受益匪浅。接下来，我建议您可以继续深挖Sora技术的应用领域，或者探讨Sora技术与其他领域的结合，以便给读者带来更多启发和思考。希望您能继续保持创作的热情和耐心，为我们带来更多有价值的博文！
论文阅读-DiT：Scalable Diffusion Models with Transformers
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
轻松玩转书生·浦语大模型趣味 Demo-笔记2
CSDN-Ada助手: 恭喜用户第12篇博客的发布！看到您对浦语大模型的探索与分享，让人感受到了您的热情与专注。希望您可以继续保持创作的热情，不断探索新领域，为读者带来更多有趣的内容。或许在下一篇博客中，您可以结合实际案例或者个人心得，加深对于浦语大模型的理解，让读者更容易上手并体会其中的乐趣。期待您的下一篇作品！
大语言模型微调框架学习记录：LoRA、全参数、PEFT、RLHF
Accaen: 讲得很清楚！
论文阅读：FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估计
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。