OpenAI最新发布的文生视频模型Sora到底强在哪？

最新推荐文章于 2024-07-10 08:41:33 发布

ElaineTiger

最新推荐文章于 2024-07-10 08:41:33 发布

阅读量848

点赞数 18

分类专栏：人工智能前沿文章标签：人工智能 AI Sora OpenAI 文生视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41273999/article/details/136166628

版权

人工智能前沿专栏收录该内容

3 篇文章 0 订阅

订阅专栏

OpenAI的Sora是一款强大的文生视频模型，能生成长达60秒的高质量视频，具备物理世界理解能力。然而，它也存在物理过程模拟不足、复杂场景处理困难等问题。随着技术进步，AIGC时代来临，Sora预示着内容创作的革新。

摘要由CSDN通过智能技术生成

文章目录

在这里插入图片描述
2024年2月16日，当大家沉浸在过年的喜庆氛围中，OpenAI发布首款文生成视频大模型 Sora ，其炸裂登场让人感到惊艳。

Sora官网介绍：https://openai.com/sora
在这里插入图片描述

说起文生视频工具，比如Runway、Pika，用户输入文字就能得到一段几秒到十几秒的视频内容，但因为效果一般，并未被广泛使用。

1.Sora到底强在哪？

此次Sora能够爆火出圈，实在是因为它过于优秀。同样是用户输入提示文字，Sora生产的视频不仅质量高，场景还很逼真丝滑、细节丰富。

其一，Sora可生成60s超长视频。相较于Runway MLGen-2、Pika等文生视频大模型，Sora可生成一镜到底的逻辑顺畅视频，主人物及背景人物均非常稳定，文生视频大模型能力突出。

其二，Sora多角度视频一致性。Sora可以在单个生成视频中创建多个镜头，以准确保留角色和视觉风格。OpenAI官网发布的Demo视频中，有多角度镜头，且主人物保持了完美的一致性。

其三，Sora在尝试理解物理世界。根据OpenAI官网披露，Sora不仅可以理解用户的描述要求，同时亦尝试理解描述的事物在物理世界中的存在方式（即物理规律）。根据OpenAI官网Demo视频中，汽车在山路行驶中的颠簸等动作符合物理世界规律，视频逼真程度进一步提升。
Sora可以用简单的方式模拟影响世界状态的行为。例如，随着时间的推移画家可以在画布上留下新的笔触，或者一个人吃汉堡时留下咬痕。

其四，图像生成功能。Sora还能生成图像，通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像，最高可达2048 × 2048分辨率。

其五，模拟数字世界。Sora还能够模拟人工过程，比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时，用基本策略控制《我的世界》中的玩家。

2. 不足

Sora官方也指出自己的模型存在的不足和局限性

它不能准确地模拟许多基本相互作用的物理过程，比如玻璃破碎。

可能难以准确模拟复杂场景的物理特性，并且可能无法理解因果关系的具体实例。例如，一个人可能会咬一口饼干，但之后，饼干可能没有咬痕。

还会混淆提示的空间细节，例如，左右混淆，并且可能难以精确描述随时间推移发生的事件，例如遵循特定的摄像机轨迹。

3. 结尾

从Runway MLGen-2、Pika到Sora，文生视频大模型频出，视频长度从3~4秒到60秒，模型对物理世界的理解愈加接近现实，已经具备商业化落地价值，创作内容产业革命来临，AIGC新时代已至。

这意味着什么？以后哪怕普通人，只要具有丰富的想象力，能够将脑海里的画面准确地描述出来，那么就能生成相应的画面视频，甚至是独立创作出一部电影。想想都很震撼！！！
在这里插入图片描述

每次技术的革新，总是惊喜与恐惧并存

恐慌无用的话，不如尽力拥抱

”与时俱进“不应该是一句口号，”拥抱变化“也不应该是一句鸡汤

你可以不屠龙，但不能不磨刀。

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
3
评论
OpenAI最新发布的文生视频模型Sora到底强在哪？

OpenAI发布首款文生成视频大模型 Sora ，其炸裂登场让人感到惊艳！
复制链接

扫一扫

专栏目录

ElaineTiger CSDN认证博客专家 CSDN认证企业博客

码龄7年

后端领域新星创作者

75: 原创

804: 周排名

1万+: 总排名

12万+: 访问

: 等级

2113: 积分

1万+: 粉丝

994: 获赞

233: 评论

1238: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python3.9及以上Pyinstaller 反编译教程(exe转py)
Green_Hand_01: imp.get_magic() 返回用于识别字节编译代码文件 (.pyc files) 的魔术字符串值。（该值对于各个 Python 版本可能不同。）自 3.4 版本弃用: 改用 importlib.util.MAGIC_NUMBER。
Python3.9及以上Pyinstaller 反编译教程(exe转py)
951888: 没有解决，pycdc只能解析一部分python3.9的代码，绝大部分都是不支持的，没啥用
Python3.9及以上Pyinstaller 反编译教程(exe转py)
ElaineTiger: 对，替换后就长了4个字节，前面20字节就变成了42 0d 0d 0a 20 20 20 20 20 20 20 20 e3 20 20 20 20 20 20 20 20 20 20 20 20 19 20 20 20 40 20 20 20 19 20 20 20 40 20 20
(三)（Driver)驱动开发之双机调试环境搭建及内核驱动的运行
点灯大师，法号一灯: 继续写呀博主，写的很好。我刚看到windbug双机调试。但是windbug不熟悉，不知道如何调试
Python3.9及以上Pyinstaller 反编译教程(exe转py)
壳kiku: 我也有这个问题，最后怎么解决的？CreateObject: Got unsupported type 0x0

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ElaineTiger 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。