sora 没开放学什么 ---- datawhale打卡
sora 技术路径详解
sora 能力边界探索:
前景: 2023年文生视频就开始火热,但是一直没有一个很好的产品出来。
现在: sora 问世
图为:国内以及国外在2023年对文生视频的探索
sora解决问题 — 大佬对sora技术报告解析:
1. 最大支持60s高清视频生成,以及基于已有短视频的前后扩展,同时保持**人物/场景的高度一致性**(个人看法:一定程度上符合事物发展规律)
2. 视频融合能力(将两个不相关的视频,丝滑融合)
3. 同一场景下的多角度/镜头的生成能力
4. 文生视频中的 “涌现” :具有动态摄像机运动的视频,随着摄像机移动和旋转,人与其他场景元素在三维空间中一致性的移动。(个人理解:说人话就是随着镜头切换,它可以生成一些合理的事物,并和主要对象保持一致性)
5. 支持任意分辨率,宽高比的视频输出(sora目前唯一可以做到)
6. 游戏视频生成尤其优秀
7. 可以文生图,而且生成的图片似乎更接近人眼所看见。(这个不算边界)
sora边界:
1.对于物理规律的理解仍然十分有限。
大佬举例:例如水杯掉落地上破碎是很难生成的,即使生成,也很难让破碎的玻璃呈现出正态分布。
sora模型训练
sora关键技术拆解
总结
技术解读过硬,很难懂哇