Sora模型介绍

模型路径:

1.架构为扩散模型(diffusion model)+transformer

2.训练时先用预训练模型把大量的大小不一的视频源文件编码转化为统一的 patch 表示,把时空要素提取作为 transfommer的token进行训练。

3.模型效果好和超大量的数据集和更多的运算时间息息相关

优势:

1.人物和背景的连贯性,即时人物运动出了相机范国再回来时还保持同样特征

2.自然语言的理解程度很高

3.可以在同一个种子下生成不同尺寸(横向竖向)的视频适配不同设备

4、可以生成长达 1min 高清视频

5.可以以文字,图片,视频作为控制要素控制输出

结果不足:

1.对于物理规则了解较弱,比如吹气后蜡烛不会熄灭,左右不分,玻璃掉落不会碎

2.对于算力要求较高(猜测)

可以实现:

1.文生视频,图生视频,图+文生视频,视频修改

2.视频转绘,视频延伸,视频补全

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值