SORA模型技术原理及训练细节太长不看版及一些不常见到的视频效果(翻车视频,局限性展示)

Ajian

于 2024-02-22 15:02:29 发布

阅读量1k

点赞数 18

文章标签： SORA ai 文生视频翻车 openai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AJian759447583/article/details/136229487

版权

文本视频生成SORA

在这里插入图片描述

最近Sora火得一塌糊涂，各种资讯内容铺天盖地之势，其技术原理及训练细节在官网有详细介绍：https://openai.com/research/video-generation-models-as-world-simulators

注意：Sora目前并未发布，任何渠道打着Sora旗号的卖课、教程等都有割韭菜嫌疑！！！

在这里插入图片描述
总结来说就是Sora的训练量足够大、算力足够多，使模型产生“涌现”的能力。

技术原理及训练细节-太长不看版

这里根据https://finance.sina.com.cn/world/2024-02-16/doc-inaieyak9227468.shtml的总结:

技术特点：

1、三维空间的连贯性：Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。

2、模拟数字世界：Sora还能模拟人工过程，如视频游戏。Sora能够同时控制Minecraft中的玩家，并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示，可以零样本地激发Sora的这些能力

3、长期连续性和物体持久性：对视频生成系统来说，Sora通常能够有效地模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。

4、与世界互动：Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。

训练过程：

1、Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。

3、Sora实际上是一种扩散型变换器模型（diffusion transformer）。

首先将视频压缩到一个低维潜在空间19中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。

4、训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入，输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。还开发了一个对应的解码器模型，它能将生成的潜在表示映射回到像素空间。

5、对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

6、随着 Sora 训练计算量的增加，样本质量有了显著提升。Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。

7、针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

8、与DALL·E 3相似，也利用了GPT技术，将用户的简短提示转换成更详细的提示，然后发送给视频模型。

效果展示

sora_title_0

sora_prompting_5

sora_prompting_7

sora_e1

更多展示效果，请看官网页面：https://openai.com/research/video-generation-models-as-world-simulators
在这里插入图片描述

翻车视频

sora_p

sora_p (1)

sora_p (2)

p (3)

再次重申：Sora目前并未发布，任何渠道打着Sora旗号的卖课、教程等都有割韭菜嫌疑！！！

关注

18
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
SORA模型技术原理及训练细节太长不看版及一些不常见到的视频效果(翻车视频,局限性展示)

Sora简介技术原理、训练细节、太长不看，翻车视频，局限性，Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。7、针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。8、与DALL·E 3相似，也利用了GPT技术，将用户的简短提示转换成更详细的提示，然后发送给视频模型。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。