OpenAI-Sora学习手册

昊昊该干饭了

已于 2024-03-30 22:13:28 修改

阅读量1.6k

点赞数 49

分类专栏：人工智能文章标签：学习人工智能 ai

于 2024-03-06 10:31:45 首次发布

本文链接：https://blog.csdn.net/qq_52213943/article/details/136497551

版权

人工智能专栏收录该内容

29 篇文章

订阅专栏

通过Sora看2024红利：文生视频，虽然AI不一定是风口，但一定是未来深入到生活工作，乃至思考的必备工具。

5.复杂场的物理现象、混淆空间细节(弱点)

Sora介绍

在2024年2月16日,OpenAI宣布推出全新的生成式人工智能模型"Sora"。据了解,通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这意味着继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI亦表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。对于OpenAI视频生成模型的出现,业内其实早有预期,但仍有人人评价称"比想象中来得更快",亦有人振奋地表示"我们真的看到新工业革命来临"。

Sora基础介绍

60秒超长视频生成:Sora能够生成长达60秒的视频,这在AI视频生成领域是一个显著的进步。
多角度镜头:Sora不仅能够生成视频,还能够在单个视频中包含多个角度的镜头,提供更丰富的视觉体验。
世界模型:Sora是一个基于数据的物理模拟引擎,能够模拟真实或幻想世界的各种场景。它通过复杂的计算过程,如去噪技术和梯度计算,学习精细渲染、模拟物理效果、进行长期逻辑推理和语义理解。
数据驱动的虚拟引擎:Sora的训练可能依赖于大量的合成数据,类似于使用Unreal Engine5生成的数据。这使得它能够实现从文本描述到3D模型的转换,并在视频中模拟复杂的物理现象,如流体动力学。
逼真的视觉效果:Sora生成的视频具有近乎逼真的光影效果,仿佛采用了光线追踪技术。它还能够通过移轴摄影技术,创造出微观世界的视觉感受。
全面的数据驱动引擎:Sora的下一步发展可能会增加更多的输入模式和条件设置,使其成为一个全面的数据驱动虚拟引擎,有望取代传统的手工图形处理流程。

Sora的出现预示着AI视频生成技术的重大突破,它不仅能够创造出令人震惊的视频内容,还有潜力改变视频制作和视觉效果的整个行业。

Sora官方网址

Sora

注意！！！！！

目前sora还没有对外开放上线,不要相信市面上任何课程,账号,不要付费,不要被割韭菜！

Sora的价值

1.物理世界的交互

教授人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。目前,Sora是一个支持文本转视频模型,可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。

2.创意世界的绽放

今天,红队可以使用Sora来评估关键区域的危害或风险。我们也允许一些视觉艺术家、设计师和电影制作人访问,以获得关于如何推进该模型以对创意专业人士最有帮助的反馈。我们正在尽早分享我们的研究进展,以便开始与OpenAI之外的人合作,并从他们那里获得反馈,让公众了解即将出现的AI功能。

3.多角色、更精准、更细节

Sora能够生成具有多个角色、特定类型的运动以及精确的主题和背景细节的复杂场景。该模型不仅了解用户在提示中要求什么,还了解这些东西在物理世界中的存在方式。

4.情感注入、多视觉

Sora对语言有深刻的理解,使其能够准确地解释提示,并生成表达充满活力的情感的引人注目的角色。Sora还可以在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。

5.复杂场的物理现象、混淆空间细节(弱点)

Sora当前的模式存在弱点。它可能难以准确地模拟复杂场景的物理,也可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后,饼干上可能没有咬痕。
该模型还可能混淆提示的空间细节,例如,混淆左和右,并且可能难以精确描述随时间发生的事件,例如跟随特定的摄像机轨迹。

相同指令下不同模型对比

猫

更真实的世界，毛发更真实

人眼

眼部轮廓也很真实，眼球反光

孔雀

整体细节雕刻更加具体

Sora影响

没有演员的影视作品出现,对演员来说是个小挑战,将出现真正王的"虚拟偶像",此前的二次元人物并没有真正达到"偶像"的级别。

利好编剧行业,剧本、文本创作力成为核心竞争力。
Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
直接的影响是影视行业,特别是特效行业。使用AI来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。

Sora原理解读

这是一种名为"视频压缩网络"的技术，它可以将图片或视频压缩成更简单的形式，类似于对各种不同大小和清晰度的图片进行统一格式处理，使它们更易于被计算机程序处理和保存。这个过程并不会丢失原始数据的独特特点，而是以一种更易于计算机理解和操作的方式重新表达这些数据。

然后，压缩后的数据会被进一步细分成称为"空间时间衬下丁"的小块，这些小块可以被看作是构成视觉内容的基本单元，就像一张大照片可以被切割成许多包含特定景色、颜色和纹理的小片段一样。这样做的好处是，无论原始视频的长度、分辨率或者风格如何，都可以被处理成一种统一的格式。

通过这种方式，这项技术可以在不丢失原始视频丰富视觉信息的前提下，将来自不同来源和风格的视觉数据转换成一种内部的、标准化的形式。这就像当你浏览一本包含各种风格和背景的世界名胜相册时，尽管照片千差万别，但你仍然能以一种统一的视角去理解和欣赏它们。

这种处理多样化视觉数据的能力,使得Sora在接收到如'猫坐在窗台上'这样的文本提示时,不仅能理解这个提示背后的意图,还能利用它的内部表示形式,综合利用不同类型的视觉信息,生成与文本提示相匹配的视频或图片。就好比是从全世界的视觉数据中找到那些能够拼凑出你想象中的"猫坐在窗台上"场景的片段,并将它们组合起来,创造出一个全新的视觉作品。