【无标题】关于Sora的一些杂记

创客阿博

已于 2024-03-05 19:58:57 修改

阅读量910

点赞数 21

文章标签：语言模型 transformer

于 2024-03-05 19:58:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shineber/article/details/136487341

版权

关于Sora的一些杂记

视频生成为核心的多能力模型
三个关键点（latent、transformer、diffusion扩散模型）
Sora的局限性

视频生成为核心的多能力模型

文/图生成
1分钟超长高质量视频生成
视频裂变
物理引擎能力

三个关键点（latent、transformer、diffusion扩散模型）

视频压缩网络（压缩到低维latent空间–>分解为spacetime patches）

Q1：为什么要先压缩到latent空间？

在这个低维空间中，视频数据可以更紧凑地表示，从而实现对视频数据的压缩。

Q2：分解为spacetime patches的意义何在？

“spacetime patches”，即在空间和时间维度上都连续的块。这种分解方式有助于保留视频数据中的空间和时间信息，并且可以更好地利用视频数据中的相关性和重复性，以实现更高效的压缩。

Sora是一个Scaling Transformer

关于Scaling Transformer的一些介绍与文献链接

输入是：噪声块+文本Prompt，输出是对原始“干净”分块的预测。

Q1: Scaling Transformer如何捕获多模态语义信息？

跨模态输入的支持：可以同时或顺序输入到模型。
跨模态注意力机制：允许模型在处理一个模态的信息时，同时考虑其他模态的信息，从而实现不同模态之间的信息交互和语义关联。
多模态特征提取：可以使用多模态特征提取器，特征可以是文本的词嵌入、图像的特征向量。

Video Recaption

关于Video Caption的一些介绍与文献链接

视频描述阶段：

Sora使用了DALL·E 3 的 recaption技巧，即为视觉训练数据生成高度描述性的 caption。

Prompt生成阶段（基于GPT进行用户Prompt改写）：

对于视频生成而言，一个高质量的Prompt非常关键，有利于Sora理解用户提供的文字所表达的语音信息。

将高质量Prompt送入视频生成模型完成生成。

注意⚠️：对于caption训练的数据匮乏，并且数据质量不一定高。原因是训练数据的来源：

引用自：Sora文生视频模型深度剖析：全网独家指南，洞悉98%信息

一方面，图像常规的文本描述往往过于简单（比如 COCO 数据集），它们大部分只描述图像中的主体而忽略图像中其它的很多信息，比如背景，物体的位置和数量，图像中的文字等。
另外一方面，目前训练文生图的图像文本对数据集（比如 LAION 数据集）都是从网页上爬取的，图像的文本描述其实就是 alt-text，但是这种文本描述很多是一些不太相关的东西，比如广告。

Sora的局限性

Sora并非一个世界模型，因为通过大量数据学习生成的规律会限制在新环境中的泛化能力。
物理交互逻辑错误：由于训练的数据存在一定的不精确性，因此训练的过程中获得的知识无法完全准确反映物理世界的逻辑。

关注

21
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【无标题】关于Sora的一些杂记

本文是一些关于Sora技术细节的杂记总结，希望对各位大佬有一定的参考意义。
复制链接

扫一扫

创客阿博 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

104万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

367: 积分

163: 粉丝

232: 获赞

12: 评论

244: 收藏

私信

关注

热门文章

分类专栏

Arduino 1篇
ESP32 1篇

最新评论

Leetcode刷题记录——二叉树篇
2401_84437604: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
谷歌Pixel3刷机指南——线刷
创客阿博: 这个可能是得需要魔法了
谷歌Pixel3刷机指南——线刷
2403_84994015: 大神救救命，点击link后网页提示错误无法进行下一步该咋办哇
Leetcode刷题记录——链表篇
CSDN-Ada助手: 恭喜用户第10篇博客《Leetcode刷题记录——链表篇》发布！持续创作不易，您的努力和坚持可嘉。希望您能继续保持刷题的热情，也可以考虑分享一些解题思路和技巧，让更多人受益。加油！期待您更多精彩的创作！
使用ArduinoIDE进行STM32开发（STM32duino）环境配置方法
CSDN-Ada助手: 恭喜您发布了这篇关于使用ArduinoIDE进行STM32开发环境配置方法的博客！您的分享对于学习和开发STM32duino环境的同好们无疑是一份宝贵的指导。希望您能继续保持创作的热情和积极性，不断分享更多有关STM32开发的经验和技巧。或许下一步可以考虑深入探讨一些高级功能或者应用案例，让读者能够更深入地了解STM32的强大之处。期待您的下一篇文章！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。