Sora学习手册-中文教程技术解读论文集合研究报告【欢迎自取】

最新推荐文章于 2024-08-28 18:49:37 发布

饱学猿

最新推荐文章于 2024-08-28 18:49:37 发布

阅读量905

点赞数 20

分类专栏： AGI 文章标签：学习 opencv 深度学习计算机视觉

本文链接：https://blog.csdn.net/m0_52599573/article/details/136247985

版权

AGI 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文介绍了AI新锐Sora，一款基于OpenAI的文本到视频生成模型，其1分钟视频生成能力、镜头语言运用及多模态特性使其在短视频制作、广告等领域展现出巨大潜力。文章详细探讨了Sora的优势、局限性以及与其他模型的对比，预示着AI视频生成元年的到来。

摘要由CSDN通过智能技术生成

更多过往精彩教程案例：见知识库公众号【饱学猿】-知识库

本部分将长期保持更新，后续会有AIGC商业案例、AIGC副业可落地实操教程等等，欢迎关注。

一、Sora基本介绍

1.1 sora是什么

2024年2月15日，AI（人工智能）新锐巨头OpenA推出文生视频模型Sora，将人们的视线再次引到了AI视频生成赛道。Sora是一个能以文本描述生成视频的人工智能模型。 Sora这一名称源于日文“空”（そら (sora)），以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。

由于在AI生成视频的时长上成功突破到一分钟（runway只有几秒），再加上演示视频的高度逼真和高质量，Sora立刻引起了轰动。真是不鸣则已一鸣惊人！

openai官方发布地址：https://openai.com/sora

sora的强大：

Sora的视频生成能力：
- Sora具备生成长达1分钟视频的能力，支持一镜到底和多角度镜头切换，同时保持对象的持续性。
丰富的镜头语言运用：
- Sora能够灵活运用景物、表情和色彩等镜头语言，表达多样的情感色彩，如孤独、繁华、呆萌等。
短视频创作全包工具：
- 在短视频领域，Sora一人包揽摄影、导演、剪辑等任务，极大地简化了短剧制作流程。
成本降低与效益提升：
- Sora有望显著降低短剧制作的成本，解决“重制作而轻创作”的问题，为企业降本增效。
广泛应用领域：
- Sora的应用不仅局限于短视频领域，也适用于广告制作、游戏与动画等行业，可直接生成符合品牌的广告视频、游戏场景和角色动画。
推动行业进入AI视频生成元年：
- Sora的出现将有望推动2024年成为AI视频生成和多模态大模型的元年，为行业带来深远影响。

1.2 sora可以做什么（案例集合）

通过官方openai对sora的发布信息，可以知：Sora 不仅可以通过文本提示词生成视频，也可以通过其他输入进行提示，例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。以下是来自官方的sora的案例（注：openai明确表示所有的案例均由sora直接生成，没有做任何修改），通过以下案例演示高度逼真和高质量的长时间一分钟视频，令人惊叹不已！

1.2.1输入文本提示词生成视频

1.2.1.1 官方【案例一】

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

提示：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

1.2.1.2 官方【案例二】

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

提示：镜头跟随一辆带有黑色车顶行李架的白色老式SUV，它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶，轮胎扬起灰尘，阳光照在SUV上飞驰。土路，给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方，看不到其他汽车或车辆。道路两旁都是红杉树，零星散落着一片片绿意。从后面看，这辆车轻松地沿着曲线行驶，看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉，上面是清澈的蓝天和缕缕云彩。

1.2.2 输入图片、文本提示词生成视频

Sora 不仅可以通过文本提示词生成视频，也可以通过其他输入进行提示，例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

1.2.2.1官方【案例一】

以下案例是将图片和文本提示同时作为输入，并给出的视频效果。

1.2.2.2官方【案例二】

以下案例是将图片和文本提示同时作为输入，并给出的视频效果。

1.2.2.3官方【案例三】

以下案例是将图片和文本提示同时作为输入，并给出的视频效果。

1.2.3 输入视频生成视频

1.2.3.1 官方【案例一】

Sora 还能够在时间上向前或向后扩展视频。下面是三个视频，它们都是从生成的视频片段开始向后延伸的。因此，这三个视频的开头都不同，但所有三个视频的结局都是相同的。

1.2.3.2 官方【案例二】

sora也可以视频到视频编辑。扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面是将其中一种方法 SDEdit, (32) 应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

1.2.3.3 官方【案例三】

Sora 还可以在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中心的视频插值在左侧和右侧的相应视频之间。

1.2.4输入文本提示词生成图片

Sora 还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达 2048x2048。

1.3 sora如何获取并使用

需要注意：截止至 2024 年2月 20 日，Sra 目前没有公开测试，也没有内测申请渠道，国内是没有渠道可以去尝试的，切勿被其他不实信息干扰了。以下官方信息来源供参考：

https://community.openai.com/t/sora-date-of-launch-and-is-it-available-to-everyon

1.3.1 渠道一（官方）

申请地址：https://forum.openai.com/

OpenAl的官方论坛，据消息透露加入论坛有机会获得内测资格。

1.3.2 渠道二（官方）

Red Teaming 在公开招募，要求比较高。如果进入到红队，可以有 Sora 的内测机会。

https://openai.com/form/red-teaming-network

1.4 sora发布时间预测

以下信息来源于比较关注sora的用户，非官方信息，仅供参考：

1.5 sora优势与劣势

1.51 sora优势

值得注意的是，Sora推出的同一天，谷歌发布了Gemini多模态模型的更新版本，而三天前，Stability AI推出了新的图像生成模型Stable Cascade。OpenAI的最新举动无疑将加剧生成式AI图片和视频领域的竞争。

而在Sora推出后不久，OpenAI发布了这款新工具的技术报告。在报告中，OpenAI首先重点介绍了如何将不同类型的视觉数据转化为统一的格式，以便于对生成模型进行大规模训练的方法，并对Sora的能力和局限性进行了评价。

《每日经济新闻》对openai发布的报告进行梳理，总结出了Sora的六大优势：

（1）准确性和多样性：Sora可将简短的文本描述转化成长达1分钟的高清视频。它可以准确地解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。它涵盖了广泛的主题，从人物和动物到郁郁葱葱的风景、城市场景、花园，甚至是水下的纽约市，可根据用户的要求提供多样化的内容。另据Medium，Sora能够准确解释长达135个单词的长提示。

（2）强大的语言理解：OpenAI利用Dall·E模型的recaptioning（重述要点）技术，生成视觉训练数据的描述性字幕，不仅能提高文本的准确性，还能提升视频的整体质量。此外，与DALL·E 3类似，OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。

（3）以图/视频生成视频：Sora除了可以将文本转化为视频，还能接受其他类型的输入提示，如已经存在的图像或视频。这使Sora能够执行广泛的图像和视频编辑任务，如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI在报告中展示了基于DALL·E 2和DALL·E 3的图像生成的demo视频。这不仅证明了Sora的强大功能，还展示了它在图像和视频编辑领域的无限潜力。（4）视频扩展功能：由于可接受多样化的输入提示，用户可以根据图像创建视频或补充现有视频。作为基于Transformer的扩散模型，Sora还能沿时间线向前或向后扩展视频。

（4）视频扩展功能：由于可接受多样化的输入提示，用户可以根据图像创建视频或补充现有视频。作为基于Transformer 的扩散模型，Sora 还能沿时间线向前或向后扩展视频。从 OpenAI 提供的 4个 demo 视频看，都从同一个视频片段开始，向时间线的过去进行延伸。因此，尽管开头不同，但视频结局都是相同的。

（5）优异的设备适配性：Sora具备出色的采样能力，从宽屏的 1920x1080p 到竖屏的1080x1920，两者之间的任何视频尺寸都能轻松应对。这意味着Sora能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前，Sora还能以小尺寸迅速创建内容原型。

（6）场景和物体的一致性和连续性：Sora可以生成带有动态视角变化的视频，人物和场景元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题。现有模型的一个问题是，当物体离开视野时，它们可能无法对其进行追踪。而通过一次性提供多帧预测，Sora可确保画面主体即使暂时离开视野也能保持不变。

1.52 sora劣势

Sora 目前作为世界模型表现出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，例如玻璃破碎。其他交互（例如吃食物）并不总是会产生对象状态的正确变化。我们在登陆页面中列举了模型的其他常见故障模式，例如长时间样本中出现的不连贯性或对象的自发出现。

1.53 模型对比

二、Sora技术拆解

2.1 sora官方技术报告(中英文)

2.2 腾讯科技sora解读

2.3 阿里达摩院sora解读

2.4 sora技术思维导图

2.5 sora参考论文集

三、sora相关研究报告

3.1 研究报告

3.2 会议纪要

四、其他

持续更新...

饱学猿

关注

20
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
Sora学习手册-中文教程技术解读论文集合研究报告【欢迎自取】

Sora学习手册，直接免费获取，你需要的都在这里！相信大家近期已经被Sora的相关信息轰炸了吧！那么Sora的出现为何能够引发如此强烈的反响，其主要源于它在文字生成视频领域的卓越表现。虽然许多公司一直在尝试这一创新，但实际应用效果仍有限。比如说，某学校组织的考试大家都只得了20多分，而Sora的出现犹如一场轰动的考试，轻松获得了90分，虽然没有完全满分，但足以惊艳全场。最近有部分读者私信我，关于sora技术以及相关后续动态等；当然也有部分表现出了焦虑。那么Sora的出现
复制链接

扫一扫