快手 Kling 文生视频大模型

想要赚钱啊

于 2024-06-07 17:54:11 发布

阅读量875

点赞数 6

文章标签： AIGC transformer stable diffusion 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54478153/article/details/139532808

版权

快手的视频生成大模型，效果非常惊艳。但是尚未未开源，商业大模型应该也不会开源。可以期待一下技术报告。

可灵大模型

总结

官网Demo的特点

可以生成长达2分钟且有30fps的视频
能模拟物理世界特性（Scaling Law）
可变分辨率的训练策略，在推理过程中可以做到同样的内容输出多种多样的视频宽高比（基于transformer的优势）
中文生成效果好
动作引导的视频生成效果也很好（文生视频的效果都那么好，这个任务的效果当然会不错）

官网中提到的技术

采用3D时空联合注意力机制（时空patch间的注意力？不断变换时间和空间维度的注意力？还是将时间空间维度拍平过后做注意力？）
Diffusion Transformer 的架构
基于自研3D VAE（和Vidu一样。传统的视频生成都是使用的2D VAE，显然3D VAE才是正确的方案！）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。