SynCamMaster：快手联合浙大、清华等大学推出的多视角视频生成模型

蚝油菜花

于 2024-12-13 21:12:08 发布

阅读量879

点赞数 10

分类专栏：每日 AI 项目与应用实例文章标签：人工智能开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19841021/article/details/144460114

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

多视角视频生成：SynCamMaster 能够从同一动态场景的不同视角生成多个视频。
视点间动态同步：在多个视角间保持动态的同步，确保不同摄像机生成的视频内容在时间和空间上的一致性。
开放世界视频生成：支持从任意视角生成开放世界的视频，结合6自由度相机姿势，用户能从任意视角捕捉场景。

正文

SynCamMaster 是什么

公众号: 蚝油菜花 - SynCamMaster

SynCamMaster是由浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型。该模型能够结合6自由度相机姿势，从任意视点生成开放世界视频。SynCamMaster通过增强预训练的文本到视频模型，确保不同视点的内容一致性，支持多摄像机视频生成。

基于插件式模块和多视图同步模块，SynCamMaster实现了视点间的动态同步，保持4D一致性。此外，它还能扩展到新视角视频合成，重新渲染输入视频从新视角观看。

SynCamMaster 的主要功能

多视角视频生成：从同一动态场景的不同视角生成多个视频。
视点间动态同步：在多个视角间保持动态的同步，确保不同摄像机生成的视频内容在时间和空间上的一致性。
开放世界视频生成：支持从任意视角生成开放世界的视频。
6自由度相机姿势：结合6自由度（6 DoF）相机姿势，用户能从任意视角捕捉场景。
预训练模型增强：用即插即用的模块增强预训练的文本到视频模型，用于多相机视频生成。
新视角视频合成：扩展到新视角视频合成，引入参考视频到多相机视频生成模型中，实现从新视角重新渲染输入视频。

SynCamMaster 的技术原理

预训练的文本到视频模型：基于预训练的文本到视频的扩散模型，根据文本描述生成一致的3D视频内容。
多视图同步模块：引入多视图同步模块，模块被集成到每个Transformer块中，用于维护不同视角间的外观和几何一致性。
相机编码器：将相机的外部参数（如旋转矩阵和平移向量）编码到与空间特征相同维度的嵌入空间中。
交叉视角自注意力：在多视图同步模块中，使用交叉视角自注意力层聚合来自不同视角的特征，实现视图间的信息交流和同步。
混合训练数据集：设计混合训练方案，结合多相机图像、单目视频和虚幻引擎渲染的多相机视频。
渐进式训练策略：推出渐进式训练策略，逐渐增加训练中不同视角之间的相对角度差异，提高模型在处理大视角差异时的性能。

资源

项目官网：https://jianhongbai.github.io/SynCamMaster/
GitHub 仓库：https://github.com/KwaiVGI/SynCamMaster
arXiv 技术论文：https://arxiv.org/pdf/2412.07760

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。