Sora初步介绍

LLM教程

已于 2024-05-05 11:25:29 修改

阅读量2.2k

点赞数 34

文章标签：目标跟踪算法学习人工智能机器学习

于 2024-02-24 11:30:00 首次发布

本文链接：https://blog.csdn.net/AAI666666/article/details/136247940

版权

在 2024 年 2 月 16 日，Open AI 宣布推出全新的生成式人工智能模型“Sora”。据了解，通过文本指令，Sora 可以直接输出长达 60 秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

这意味着，继文本、图像之后，OpenAI 将其先进的 AI 技术拓展到了视频领域。OpenAI 亦表示，Sora 是能够理解和模拟现实世界的模型的基础，这一能力将是实现 AGI（通用人工智能）的重要里程碑。

对于 OpenAI 视频生成模型的出现，业内其实早有预期，但仍有人评价称“比想象中来得更快”，亦有人振奋地表示“我们真的看到新工业革命来临”。

Sora 官方网址：openai.com/sora

截屏2024-02-19 下午2.03.11.png

Sora论文网址：openai.com/research/vi…

目前OpenAI官网上已经更新了48个Sora生成的视频Demo，色彩艳丽，效果逼真。

2024年的真正红利点：文生视频。

原理理解及达到效果

用ChatGPT能力做视频文本对齐，将多个高分辨率视频素材进行降维处理，进行密集训练，最后大力出奇迹。

最终我们只需要一段提示词，就可以生存60s的1080p的视频。

另外，Sora还可以从静态图像生成动画，或者扩展现有视频，从而创建出更多的画面，保持角色和视觉风格的一致性。

现有问题

该模型会混淆提示的空间细节，并且难以模拟复杂场景中的物理现象。

正式发布时间预测

截屏2024-02-19 下午2.10.23.png

如何使用

截止目前，Sora没有公开测试，也没有内测申请渠道，国内是没有渠道可以去尝试的。

下面信息仅供参考：

截屏2024-02-19 下午2.32.24.png

各模型对比

能力	Sora	其他
架构	Transformer	UNet为主
驱动方式	数据	图片
世界理解能力	强	弱
数字世界模拟	支持	不支持
世界互动能力	支持	不支持
3D运动连贯性	强	弱
物体一致性	强	弱
物体持久性/连续性	强	弱
文本理解	强	一般
运动控制	其他	提示词+运动控制工具
无缝连接能力	强	一般
视频到视频编辑	支持	部分
扩展生成视频	前/后	后
视频时长	60s	2-4s
原生纵横比	支持	不支持
清晰度	1080P	最高4k（Runway）

相同指令下不同视频模型对比

internal-api-drive-stream.feishu.cn/space/api/b…

AI视频玩家盘点

据不完全统计，过去一年来全球AI生成视频类赛道的融资已经超过数十亿美金，其中大部分公司都以种子轮、A轮为主。

今年1月底，A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望，并盘点了市场长超过20个明星产品。

截屏2024-02-19 下午2.44.41.png

Sora优势

准确性和多样性

可理解长达135个单词的长提示，准确解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。

强大的语言理解

利用Dell-E模型的re-captioning技术，生成视觉训练数据的描述性字幕，不及可以提高文本的准确性，还可以提升视频质量。

以图/视频生成视频

Sora不仅可以接受多样的提示词，还能接受已存在的图像和视频。

优秀的设备适配性

Sora具备出色的采样能力，从宽屏的1920x1080到竖屏的1080x1920，两者之间的任何视频尺寸都能轻松应对。

视频扩展功能

作为基于Transformer的扩散模型，Sora还能沿时间线向前或向后扩展视频。

场景和物体的一致性和连续性

Sora可以生成带有生成带有动态视觉变化的视频，任务和场景元素在三维空间中的移动会显得更加自然。

Sora可能带来的影响

没有演员的影视作品出现，对演员来说是个小挑战，将出现真正的“虚拟偶像”，此前的二次元人物并没有真正达到“偶像”的级别。
利好编剧行业，剧本、文本创作力成为核心竞争力。
Sora 可能才是真正的文生视频，此前的文生视频大多只有 2 秒，仅仅是对象的小幅度移动。
OpenAI 继续拉大领先程度，对众多还在进行大模型测试打分 pk 的厂商，构成压力。
直接的影响是影视行业，特别是特效行业。使用 AI 来制作一些特效和高风险的镜头，可以大幅降低拍摄成本，也可以避免很多危险。
摄影师行业也会受到影响，用文本来生成一些视频，可以省去很多拍摄工作。
短视频流行开以后，视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用 AI 来代替，可能会有很多视频剪辑师失业。
对于很多短视频创作者来说，用 AI 来替代繁琐的剪辑工作，可以大幅提高工作效率。
很多歌手拍摄 MV 都是大成本制作，如果可以用 AI 来生成所需要的 MV 画面，也可以省去很大一部分制作成本。
另外，如果真正意义上的文生视频得以实现，可能会有不法份子利用这项技术实施新手段的违法犯罪。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述