part1:sora技术

最新推荐文章于 2024-08-12 21:18:42 发布

csdnshenjiaye

最新推荐文章于 2024-08-12 21:18:42 发布

阅读量342

点赞数 9

分类专栏： Sora原理及技术实战文章标签：人工智能

本文链接：https://blog.csdn.net/csdnshenjiaye/article/details/136382632

版权

Sora原理及技术实战专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章探讨了Sora的视频生成能力，包括其通过VAE编码和DiffusionTransformer进行复杂视频处理的过程，以及对物理规律的模拟。作者还对未来的技术发展表达了期待。

摘要由CSDN通过智能技术生成

1.Sora能力边界探索

从sora的视频合集里看到了多段视频，假如我不知道这是sora视频合计，估计我第一反应并不是AI生成了这些视频，可以说在我这里通过了图灵测试😊。

在视频合集里还有同一场景的多角度/镜头的生成能力，让我想起了我曾经学习3d建模的时光（大学时曾经学习过一段时间的maya做3d建模），在制作动画中也会切换不同视角，估计sora训练数据里有一些3d建模的素材，不然很难输出同一场景的多镜头的视频。

sora还可以支持任意分辨率，宽高比的视频输出，从视频截图里还可以看到无论什么分辨率，视频的主题（乌龟）都能恰好出现在视频比较中间的位置，我想是不是sora生成的原始视频是一个比较大的场景，然后根据不同分辨率宽高比需求，然后像拍电影一样调整成自己想要的宽高比，聚焦主角，当然这样可能会造成算力浪费，当时如果是这样实现的会感觉很有趣😄。

sora生成的玻璃杯掉到桌子上后没有碎，这种看起来是sora的缺点，并不能很好模拟出真实世界的物理规律，但是我觉得sora团队能公开这种看似失败的视频，证明他们已经想好了解决方案在改进中了，可能到了sora2.0发布的时候，这个视频还会再次出现，只不过标题是sora2.0和sora1.0的对比。

2.Sora模型训练流程，关键技术拆解

通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示，通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示，基于 Diffusion Transformer完成从文本语义到图像语义的再映射，DiT 生成的低维空间表示，通过 VAE 解码器恢复成像素级的视频数据。这里的技术名词还有些陌生，但是从描述中能了解到sora也是需要将复杂的东西分解成简单的东西，然后做训练，再生成简单的东西，再输出复杂的内容。