Sora--Creating video from text

最新推荐文章于 2024-10-15 01:20:33 发布

HamLak

最新推荐文章于 2024-10-15 01:20:33 发布

阅读量1.1k

点赞数 22

文章标签：人工智能

本文链接：https://blog.csdn.net/HamburgerLake/article/details/136146045

版权

Sora–Creating video from text

Sora【openai】是一个能够根据文本指令创建真实和富有想象力视频场景的AI模型。
openai 链接

目前尚未开放体验入口，本文为Sora (索拉？)的技术做一个概述性导读

Sora概述

Sora

Sora作为一个文本到视频的模型，标志着在这一领域的一个重要进步。。Sora能够理解文本指令生成视频，具有高度的自动化和创造力，能保证视频的视觉质量并且忠实于用户的原始指令。这种技术的实现，对于媒体制作、广告、教育和娱乐等领域意味着巨大的潜在影响，大大降低了视频内容创作的门槛和成本，同时也开拓了新的创作可能性。

· Sora能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容，而且还理解这些内容在物理世界中的存在方式。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多行人走来走去。

·Sora在生成视频内容时的高级能力，特别是在处理复杂场景和动态元素方面。Sora不仅能够根据用户的文本提示生成视频，而且能够深入理解这些提示中的元素如何在现实世界中互动和存在。这意味着Sora在生成视频时，能够考虑角色之间的互动、物理规则以及场景的逻辑一致性，从而创造出既丰富又真实的视觉故事。

Prompt: Historical footage of California during the gold rush.
淘金热期间加利福尼亚州的历史录像。

·该模型对语言有深刻的理解，使其能够准确解释提示并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头，准确保持角色和视觉风格的一致性。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
美丽的、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，在附近的摊位上购物。美丽的樱花花瓣随着雪花在风中飞舞。

·DALL·E 3开发的某些功能也被集成到了Sora中，暗示Sora不仅继承了DALL·E 3在图像生成方面的强大能力，还可能融合了其他功能，以支持其视频生成任务。这意味着Sora能够利用DALL·E 3的先进技术来增强其视频内容的质量和创造力，例如通过生成更加细腻和生动的视觉元素。

Prompt: A stop motion animation of a flower growing out of the windowsill of a suburban house.
郊区一所房子的窗台上长出一朵花的定格动画。

生成样例

补充中…

Sora技术内容

Sora技术报告

利用了一种在视频和图像潜码（spacetime patches of video and image latent codes）的transformer 架构，联合训练了文本条件扩散模型（text-conditional diffusion models），处理不同持续时间、分辨率和宽高比的视频和图像。

技术报告主要聚焦两块。（1）将各类视觉数据转换为统一表示的方法。（2）Sora能力和局限性的定性评估。具体细节如下，已按照归纳理解重新排版，标题对应着原始章节名称。

Turning visual data into patches && Spacetime latent patches

在这里插入图片描述
大语言模型（LLM）成功的部分原因在于使用了能够优雅统一文本多样化形态（代码、数学和各种自然语言）的token，为了向LLM方式对齐，引入patches（补丁？），将视频压缩到较低维度的潜在空间中，然后将表示分解为patches，从而将视频转化为patches。给定一个压缩的输入视频，提取一系列patches作为token。patches的表示使得Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。

Video compression network && Scaling transformers for video generation && Variable durations, resolutions, aspect ratios && Language understanding

训练了一个降低视觉数据维度的网络。这个网络将原始视频作为输入，并输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练，并随后生成视频。同时训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。Sora是一种扩散模型；给定输入的噪声patches（和条件信息，如文本提示）来预测原始的“干净”patches，联想diffusion过程 在这里插入图片描述
训练文本到视频生成系统需要大量带有相应文本标题的视频。将DALL·E 3中引入的重新标注技术应用于视频。首先训练一个高度描述性的标题生成模型，然后用为训练所有视频产生文本标题。在高度描述性的视频标题上训练可以提高文本的准确性以及视频的整体质量。

类似于DALL·E 3，利用GPT将简短的用户提示转化为更长、更详细的标题，使得Sora能够生成高质量的视频，准确地遵循用户的提示。

–可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有内容
–在其原生宽高比的视频上进行训练，可以改善构图和布局

Prompting with images and videos && Image generation capabilities && Emerging simulation capabilities

·Sora也可以接受其他输入，如图像或视频。这样让Sora可以创建完美循环的视频、为静态图像添加动画、在时间上向前或向后延伸视频等。

比如：

Animating DALL·E images。基于DALL·E 2和DALL·E 3图像生成的示例视频。
Extending generated videos。将视频向前和向后延伸，以产生无缝的无限循环。
Video-to-video editing。零成本地转换输入视频的风格和环境。
Connecting videos。创建在完全不同的主题和场景构成之间的无缝过渡。