sora 没开放学什么 ---- datawhale打卡

最新推荐文章于 2024-07-25 16:08:18 发布

JefferYoungCSDN

最新推荐文章于 2024-07-25 16:08:18 发布

阅读量530

点赞数 9

文章标签： AIGC 深度学习音视频

本文链接：https://blog.csdn.net/JefferYoungCSDN/article/details/136363941

版权

sora 没开放学什么 ---- datawhale打卡

sora 技术路径详解

sora 能力边界探索：
前景: 2023年文生视频就开始火热，但是一直没有一个很好的产品出来。
现在： sora 问世
在这里插入图片描述
图为：国内以及国外在2023年对文生视频的探索

sora解决问题 — 大佬对sora技术报告解析：

1. 最大支持60s高清视频生成,以及基于已有短视频的前后扩展，同时保持**人物/场景的高度一致性**（个人看法：一定程度上符合事物发展规律）
2. 视频融合能力（将两个不相关的视频，丝滑融合）
3. 同一场景下的多角度/镜头的生成能力
4. 文生视频中的 “涌现” ：具有动态摄像机运动的视频，随着摄像机移动和旋转，人与其他场景元素在三维空间中一致性的移动。（个人理解：说人话就是随着镜头切换，它可以生成一些合理的事物，并和主要对象保持一致性）
5. 支持任意分辨率，宽高比的视频输出（sora目前唯一可以做到）
6. 游戏视频生成尤其优秀
7. 可以文生图，而且生成的图片似乎更接近人眼所看见。（这个不算边界）

sora边界：

1.对于物理规律的理解仍然十分有限。

大佬举例：例如水杯掉落地上破碎是很难生成的，即使生成，也很难让破碎的玻璃呈现出正态分布。

sora模型训练

在这里插入图片描述

sora关键技术拆解

在这里插入图片描述

总结

技术解读过硬，很难懂哇

JefferYoungCSDN

关注

9
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
sora 没开放学什么 ---- datawhale打卡

datawhale打卡-sora技术解读
复制链接

扫一扫