为什么央视把 Sora 称为首个视频生成大模型？

LunarWave

已于 2024-02-27 13:49:11 修改

阅读量442

点赞数 4

分类专栏： AI学习文章标签：音视频 gpt chatgpt ai

于 2024-02-27 13:28:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59192927/article/details/136319830

版权

AI学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章参考：https://www.zhihu.com/question/644575412/answer/3399336658

央视将Sora 称为OpenAi首个视频生成大模型，那是因为确实是OpenAi的文生视频产品首发。

而且目前的文生视频产品，只有Sora做到了与真实世界一致，从真正意义上理解并进行视频生成，而不是二维图像动态填补。

Sora这几天的爆炸性新闻，让所有人工智能相关从业者及对应用感兴趣的人群都感到沸腾，震撼到央视也在进行相关的讨论，简直可以和2023年初ChatGPT讨论带来的热潮一般。

我整理了下最近两天的国内的相关内容给大家做大略的回顾参考（更多内容，可查看文章开头的原文）。

1.Sora 论文

OPENAI对于Sora的论文可以详见下列链接：

图片中文翻译：

视频生成模型作为世界模拟器我们探讨了在视频数据上对生成模型进行大规模训练。具体来说，我们共同训练了文本条件扩散模型，这些模型能够处理不同时长、分辨率和宽高比的视频和图像。我们利用了一种变压器架构，该架构能够处理视频和图像潜在代码的空间时间块。我们最大的模型，Sora，能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建通用物理世界模拟器的有希望的道路。

中文翻译：

语言理解训练文本到视频生成系统需要大量的带有相应文本字幕的视频。我们将DALL·E330中引入的重新字幕技术应用到视频中。我们首先训练一个高度描述性的字幕模型然后使用它为训练集中的所有视频生成文本字幕。我们发现，高度描述性的视频字幕训练提高了文本保真度以及视频的整体质量。与DALL·E3类似，我们还利用GPT将简短的用户提示转换为较长的详细字幕，并发送给视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。

而关于论文内部详细的内容，网上有整理好的资料，建议可以参考这个飞书文档，有对这个论文的翻译及详细的解析，分享给大家:

https://caaiartlab.feishu.cn/docx/LgmFdXTRwo0m5yxkQRIcO6RGnRf

2.Sora怎么使用

截止2024年2月27日。目前Sora只向“红色成员”提供，用来发现潜在的危害和风险，另外还向一些视觉艺术家，电影制作人开放，并征求他们的意见对Sora进行改进，所以现在不是对外开放的。

另外根据文生图模型 DALL·E 案例，开放后大概率是先给 ChatGPT Plus 用户使用。

3.国内关于Sora的讨论

结语

Sora通过分析大量的视频数据、学习物理规律的表现，并利用先进的算法理解和模拟时空连续性，从而能够生成看起来符合物理规律的视频。

这一过程涉及到复杂的计算和大量的数据处理，最终使得Sora生成的视频在视觉上既真实又符合逻辑。

AGI的未来或许真的不远了!

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
为什么央视把 Sora 称为首个视频生成大模型？

Sora 是OpenAI最新发布的文本生成视频模型，不仅可以生成长达一分钟的视频，且能完全遵照用户的 Prompt 并保持视觉质量。OpenAI 这个公司的格局非常大，他想要做 World Simulators（世界模拟器），做通用AGI，而不仅仅是文字或者图像视频领域的内容，他希望的是帮助人们解决需要现实世界交互的问题。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。