OpenAI发布Sora模型——AI圈里的大震荡

VertexGeek

于 2024-02-23 16:19:03 发布

阅读量1k

点赞数 22

分类专栏： AI资讯文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77286822/article/details/136257900

版权

AI资讯专栏收录该内容

2 篇文章 0 订阅

订阅专栏

OpenAI的AI视频模型Sora凭借其强大的一分钟视频生成能力和1080P分辨率，革新了文生视频领域。然而，尽管存在物理效果识别的局限，Sora仍展示了在视频生成和潜在模拟器方向的重要进展，但离通用人工智能（AGI）仍有距离。

摘要由CSDN通过智能技术生成

一、Sora - 探索AI视频模型的无限可能

随着人工智能技术的飞速发展，AI视频模型已成为科技领域的新热点。而在这个浪潮中，OpenAI推出的首个AI视频模型Sora，以其卓越的性能和前瞻性的技术，引领着AI视频领域的创新发展。与之前大火的Pika,runway相比，OpenAI这次可以说是绝杀了之前所有的Text To Video(文生视频)领域的AI产品。

之前的AI生成视频的软件，例如Pika只能生成4秒左右的视频，而且对使用者的提示词水平要求极高，prompt写的但凡差一些，生成的视频质量就难以然人满意。

这一次OpenAI推出的Sora直接可以生成长达一分钟的视频，质量还能达到1080P的水平，并能360°切换视频的角度。小编只能说：“太酷了！！！”。

只需要一段简单的提示词Sora就能最大限度的实现你的目的

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

只需要输入上面这段prompt就能得到下面这个视频：

对就是那个在网上传疯了的女人

二、技术报告：

就在几小时后，OpenAI Sora的技术报告也发布了！

其中，「里程碑」也成为报告中的关键词。

技术报告主要介绍了两个方面：

（1）如何将不同类型的视觉数据转化为统一的格式，以便于对生成模型进行大规模训练的方法；

（2）对Sora的能力和局限性的定性评价。

不过遗憾的是，报告不包括模型和实现细节。嗯，OpenAI还是那个「OpenAI」。

此前，OpenAI的研究者一直在探索的一个难题就是，究竟怎样在视频数据上，应用大规模训练的生成模型？

为此，研究者同时对对持续时间、分辨率和宽高比各不相同的视频和图片进行了训练，而这一过程正是基于文本条件的扩散模型。

他们采用了Transformer架构，这种架构能够处理视频和图片中时空片段的潜代码。

随之诞生的最强大模型Sora，也就具备了生成一分钟高质量视频的能力。

OpenAI研究者发现了令人惊喜的一点：扩展视频生成模型的规模，是构建模拟物理世界通用模拟器的非常有希望的方向。

也就是说，顺着这个方向发展，或许LLM真的能够成为世界模型！

以前的许多研究，都是通过各种技术对视频数据进行生成模型建模，比如循环网络、生成对抗网络、自回归Transformer和扩散模型等方法。

它们往往只关注于特定类型的视觉数据、较短的视频或者固定尺寸的视频。

而Sora与它们不同，它是一种通用的视觉数据模型，能够生成各种持续时间、宽高比和分辨率的视频和图片，甚至长达一分钟的高清视频。

有网友表示，「Sora虽然有一些不完美之处（可以检测出来），例如从物理效果可以看出它是人工合成的。但是，它将会革命性地改变许多行业。

想象一下可以生成动态的、个性化的广告视频进行精准定位，这将是一个万亿美元的产业」！

LLM之所以会成功，就是因为它们在互联网规模的数据上进行了训练，获得了广泛能力。

它成功的一大关键，就是使用了token，这样，文本的多种形态——代码、数学公式以及各种自然语言，就优雅地统一了起来。

OpenAI的研究者，正是从中找到了灵感。

该如何让视觉数据的生成模型继承token的这种优势？

注意，不同于LLM使用的文本token，Sora使用的是视觉patch。

此前已有研究表明，patch对视觉数据建模非常有效。

OpenAI研究者惊喜地发现，patch这种高度可扩展的有效表征形式，正适用于训练能处理多种类型视频和图片的生成模型。

从宏观角度来看，研究者首先将视频压缩到一个低维潜空间中，随后把这种表征分解为时空patch，这样就实现了从视频到patch的转换。

视频压缩网络

研究者开发了一个网络，来减少视觉数据的维度。

这个网络可以接受原始视频作为输入，并输出一个在时间上和空间上都进行了压缩的潜表征。

Sora在这个压缩后的潜空间中进行训练，之后用于生成视频。

另外，研究者还设计了一个对应的解码器模型，用于将生成的潜数据转换回像素空间。

潜空间patch

对于一个压缩后的输入视频，研究者提取看一系列空间patch，作为Transformer的token使用。

这个方案同样适用于图像，因为图像可以被视为只有一帧的视频。

基于patch的表征方法，研究者使得Sora能够处理不同分辨率、持续时间和纵横比的视频和图像。

在推理时，可以通过在一个合适大小的网格中适当排列随机初始化的patch，从而控制生成视频的大小。

三、局限性：

诚然，Sora在AI生成视频领域以可以成为优秀，但是，它距离AGI依旧很遥远。

在这个视频中，玻璃杯碎裂的方式十分诡异——

它被抬到半空中时，桌子上就忽然出现了一滩平整的红色玻璃，随后玻璃杯被摔到桌子上，和这滩玻璃融为一体。

很显然，Sora混淆了玻璃破碎和液体溢出的顺序，也并不能推理时间和因果关系。

而这也说明，Sora目前还无法理解物理世界！这也就反驳了之前英伟达科学家说Sora可能是一个物理世界模拟器。

但不可否认的是，人类在AGI的道路上又进了一步，未来依旧可期！

关注

22
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

VertexGeek CSDN认证博客专家 CSDN认证企业博客

码龄2年

42: 原创

30万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

1197: 积分

722: 粉丝

762: 获赞

11: 评论

765: 收藏

私信

关注

热门文章

分类专栏

最新评论

书生·浦语实战营第二期（七）——OpenCompass
CSDN-Ada助手: 恭喜您在书生·浦语实战营第二期中取得了进展，OpenCompass这篇博客内容看起来很精彩！希望您能继续坚持创作，不断提升自己的写作水平。或许在下一篇博客中可以分享一些关于学习方法或者心得体会，这样能够让读者更加受益。期待您的下一篇作品！祝您写作愉快！
书生·浦语实战营第二期——LMdeploy
CSDN-Ada助手: 恭喜作者在第12篇博客《书生·浦语实战营第二期——LMdeploy》中分享了关于LMdeploy的实战经验！持续创作是非常了不起的事情，希望作者能够继续分享更多有价值的内容。接下来建议作者可以深入探讨LMdeploy的更多细节，或者分享一些实战案例，让读者更加深入了解这个主题。期待作者的下一篇博客！愿作者在创作的道路上不断前行，不断进步！
实战营第二期——玩转demo
CSDN-Ada助手: 恭喜用户在实战营第二期中玩转demo并成功地写下了第10篇博客！持续创作是非常值得鼓励的，希望用户能继续保持这样的创作热情和努力，不断提升自己的写作水平。对于下一步的创作建议，建议用户多尝试不同的主题和写作风格，不断探索和挑战自己，相信用户的写作会有更大的进步和突破！
书生·浦语大模型全链路开源体系（四）——微调（XTuner）
zjtggssg: 你好想询问一下生成的test集，微调的时候不用送入模型中吗
书生·浦语大模型开源体系（一）——模型
CSDN-Ada助手: 恭喜作者发布了第9篇博客《书生·浦语大模型开源体系（一）——模型》，内容详实且有深度。继续保持创作的热情和耐心，相信您的努力一定会得到更多人的认可和喜爱。建议在下一篇博客中，可以深入探讨模型的应用场景和实际效果，让读者更加直观地了解其价值所在。期待您的精彩续篇！愿您的笔耕不辍，创作更上一层楼。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。