openai-sora

GeekPlusA

已于 2024-02-20 14:05:40 修改

阅读量250

点赞数 8

分类专栏：人工智能文章标签： openai sora Sora aigc

于 2024-02-19 18:58:44 首次发布

本文链接：https://blog.csdn.net/qq122716072/article/details/136175982

版权

人工智能专栏收录该内容

87 篇文章 8 订阅

订阅专栏

openai-sora

Sora 概览

Sora 是一个 AI 模型，可以根据文本指令创建现实且富有想象力的场景。 Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。
Sora 是 openai发布的文本转视频模型。Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。
我们（openai）正在教授人工智能理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。

Sora效果展示

demo 1

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。
效果

tokyo-walk

demo 2

该模型对语言有深入的理解，使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。Sora 还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

提示词：镜头跟随一辆带有黑色车顶行李架的白色老式SUV，它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶，轮胎扬起灰尘，阳光照射在SUV上行驶土路，给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方，看不到其他汽车或车辆。道路两旁都是红杉树，零星散落着一片片绿意。从后面看，这辆车轻松地沿着曲线行驶，看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉，上面是清澈的蓝天和缕缕云彩。

效果

suv-in-the-dust

demo 3

提示词：动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

效果

monster-with-melting-candle

demo4

提示词：一窝金毛幼犬在雪地里玩耍。他们的头从雪中探出来，被雪覆盖着。

效果

snow-dogs

技术原理

Sora 是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐对其进行转换。

Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见，我们解决了一个具有挑战性的问题，即确保主题即使暂时离开视野也保持不变。

与 GPT 模型类似，Sora 使用变压器架构，释放出卓越的扩展性能。

我们将视频和图像表示为称为补丁的较小数据单元的集合，每个补丁类似于 GPT 中的令牌。通过统一我们表示数据的方式，我们可以在比以前更广泛的视觉数据上训练扩散变换器，涵盖不同的持续时间、分辨率和纵横比。

Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，该模型能够更忠实地遵循生成视频中用户的文本指令。

Sora 还能够获取现有的静态图像并从中生成视频，准确地动画图像的内容并关注小细节。Sora 还可以获取现有视频并对其进行扩展或填充缺失的帧。

如何访问索拉

向一些视觉艺术家、设计师和电影制作人提供访问权限，以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。
目前，我们没有关于 Sora 更广泛的公开可用性的时间表或其他详细信息。我们将采取一些重要的安全措施，包括让世界各地的政策制定者、教育工作者和艺术家参与进来，了解他们的担忧并确定这项新技术的积极用例。