AIGC专题：Sora开启AIGC新纪元，海外龙头AI指引乐观

本文链接：https://blog.csdn.net/GPT20236688/article/details/136170644

方正证券的报告显示，OpenAI的Sora模型在AIGC领域取得了重大进展，具备超长生成时间、多角度镜头一致性和理解物理世界的能力。该模型使用Transformer架构的扩散模型，通过GPT扩写和独特训练方法，显著提升视频生成质量和多样性。

摘要由CSDN通过智能技术生成

今天分享的是电子系列深度研究报告：《AIGC专题：Sora开启AIGC新纪元，海外龙头AI指引乐观》。

（报告出品方：方正证券）

报告共计：30页

来源：人工智能学派

Sora、Gemini 1.5 Pro 相继发布，AIGC 新时代已至

大模型 Sora震摅登场，Al 生成视频领域里程碑

0penAl在 2024年2月16日发布文生视频模型 Sora，突破了 AIGC 的高地，该模型完美继承 DALL·E3的画质和遵循指令能力，并利用了GPT扩写，具备超长生成时间(60s，Pika 1.0为3s)、单视频多角度镜头、理解物理世界三大突出优势。除文生视频外，该模型还能支持通过现有的静态图像生成视频，并能准确、细致地对图像内容进行动画处理:提取现有视频,对其进行扩展或填充缺失的帧。

优势 1#超长生成时间。Sora 支持 60s 视频生成，一镜到底，不仅主人物稳定背景中的人物表现也十分稳定，可实现从大中景无缝切换到脸部特写。相比之下Pika 1.0的视频生成时间为 3s(可通过 Add 4s 功能增加 4s)，Sora 支持时长远超目前市场上已有的文生视频模型。

优势 2#单视频多角度镜头。Sora 生成的视频中，在有多角度镜头的情况下仍然能保证一致性，即使主体暂时离开视野也可保持不变。OpenAI 展示了如下提示词的生成的视频：一个美丽的剪影动画展示了一只狼对着月亮嚎叫，感到孤独，直到它找到狼群，该视频实现了多镜头无缝切换且保持了主体的一致。

优势 3#理解物理世界。目前 Sora 已经能生成具有多个角色、包含特定运动的复杂场景，不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。我们看到 Sora 生成的视频与世界互动，例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续存在，一个人可以吃汉堡并留下咬痕。在汽车在山路上行驶的视频中，其汽车的阴影、树影等随镜头变化带来的光影变换也符合物理世界。我们认为 Sora 已具备理解物理世界的能力。

Sora 不仅能通过文字来生成视频，还支持图片生成视频、扩展生成的视频、视频编辑以及视频连接。

1）图片生成视频：Sora 能够生成提供图像和提示作为输入的视频；

2）扩展生成的视频：Sora 还能够在时间上向前或向后扩展视频，虽然视频的结局都是相同的，但起始视频并不相同；

3）视频编辑：扩散模型启用了多种根据文本提示编辑图像和视频的方法，使 Sora 能够零镜头地改变输入视频的风格和环境；

4）视频连接：Sora 可以在两个输入视频之间逐帧进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

我们认为 Sora 震撼效果的原因主要有:

1）训练端：基于 Transformer 架构的扩散模型，降维并通过 Patche 进行训练；采样的灵活性与独特的训练路径（原始尺寸、时长训练）；利用 DALL·E 3 re-captioning 功能，给训练用的视频素材都加上高质量文本描述；

2）输入端：利用 GPT 先将用户输入的提示词精准详尽扩写，再将扩写后的提示词交给 Sora。

基于 Transformer 架构的扩散模型，降维并通过 Patche 进行训练。Sora是一种扩散模型，可在学习大量先作的时候，学会图像内涵与图像之间的关系，采用Transformer 架构(主流视频生成扩散模型较多采用 U-Net 架构)，0penAl 认为之前在大语言模型上的成功得益于 Token，Token 可以把代码、数学以及各种不同的自然语言进行统一，进而方便规模巨大的训练，因此 0penAl 创造了对应Token 的 Patche,用于训练 Sora。为减少Transformer 带来的计算量压力,0penAl开发了一个视频压缩网络，把视频先降维到潜空间(latent，用更少的信息去表达信息的本质)，然后再去拿这些压缩过的视频数据去生成 Patche，这样就能使输入的信息变少。

训练中具有采样的灵活性，并通过原始尺寸、时长训练。Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频，这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。与业内常用的把视频截取成预设标准尺寸、时长后再训练的路径不同，OpenAI 选择了原始尺寸、时长训练，这使得 Sora 生成的视频能更好地自定义时长、更好地自定义视频尺寸、视频会有更好的取景和构图。