part1:sora技术

文章探讨了Sora的视频生成能力,包括其通过VAE编码和DiffusionTransformer进行复杂视频处理的过程,以及对物理规律的模拟。作者还对未来的技术发展表达了期待。
摘要由CSDN通过智能技术生成

1.Sora能力边界探索

        从sora的视频合集里看到了多段视频,假如我不知道这是sora视频合计,估计我第一反应并不是AI生成了这些视频,可以说在我这里通过了图灵测试😊。

        在视频合集里还有同一场景的多角度/镜头的生成能力,让我想起了我曾经学习3d建模的时光(大学时曾经学习过一段时间的maya做3d建模),在制作动画中也会切换不同视角,估计sora训练数据里有一些3d建模的素材,不然很难输出同一场景的多镜头的视频。

        sora还可以支持任意分辨率,宽高比的视频输出,从视频截图里还可以看到无论什么分辨率,视频的主题(乌龟)都能恰好出现在视频比较中间的位置,我想是不是sora生成的原始视频是一个比较大的场景,然后根据不同分辨率宽高比需求,然后像拍电影一样调整成自己想要的宽高比,聚焦主角,当然这样可能会造成算力浪费,当时如果是这样实现的会感觉很有趣😄。

        sora生成的玻璃杯掉到桌子上后没有碎,这种看起来是sora的缺点,并不能很好模拟出真实世界的物理规律,但是我觉得sora团队能公开这种看似失败的视频,证明他们已经想好了解决方案在改进中了,可能到了sora2.0发布的时候,这个视频还会再次出现,只不过标题是sora2.0和sora1.0的对比。

2.Sora模型训练流程,关键技术拆解

        通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示,通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示,基于 Diffusion Transformer完成从文本语义到图像语义的再映射,DiT 生成的低维空间表示,通过 VAE 解码器恢复成像素级的视频数据。这里的技术名词还有些陌生,但是从描述中能了解到sora也是需要将复杂的东西分解成简单的东西,然后做训练,再生成简单的东西,再输出复杂的内容。

3.个人的思考与总结

        本次学习了解到了最新的sora视频能里有多强,期待进一步的技术学习及代码实践,AI时代跟上时代的脚步。

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值