快手 Kling 文生视频大模型

快手的视频生成大模型,效果非常惊艳。但是尚未未开源,商业大模型应该也不会开源。可以期待一下技术报告。

可灵大模型

总结

官网Demo的特点

  • 可以生成长达2分钟且有30fps的视频

  • 能模拟物理世界特性(Scaling Law)

  • 可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比(基于transformer的优势)

  • 中文生成效果好

  • 动作引导的视频生成效果也很好(文生视频的效果都那么好,这个任务的效果当然会不错)

官网中提到的技术

  • 采用3D时空联合注意力机制(时空patch间的注意力?不断变换时间和空间维度的注意力?还是将时间空间维度拍平过后做注意力?)

  • Diffusion Transformer 的架构

  • 基于自研3D VAE(和Vidu一样。传统的视频生成都是使用的2D VAE,显然3D VAE才是正确的方案!)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值