SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视角视频生成:SynCamMaster 能够从同一动态场景的不同视角生成多个视频。
  2. 视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。
  3. 开放世界视频生成:支持从任意视角生成开放世界的视频,结合6自由度相机姿势,用户能从任意视角捕捉场景。

正文

SynCamMaster 是什么

公众号: 蚝油菜花 - SynCamMaster

SynCamMaster是由浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型。该模型能够结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。

基于插件式模块和多视图同步模块,SynCamMaster实现了视点间的动态同步,保持4D一致性。此外,它还能扩展到新视角视频合成,重新渲染输入视频从新视角观看。

SynCamMaster 的主要功能

  • 多视角视频生成:从同一动态场景的不同视角生成多个视频。
  • 视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。
  • 开放世界视频生成:支持从任意视角生成开放世界的视频。
  • 6自由度相机姿势:结合6自由度(6 DoF)相机姿势,用户能从任意视角捕捉场景。
  • 预训练模型增强:用即插即用的模块增强预训练的文本到视频模型,用于多相机视频生成。
  • 新视角视频合成:扩展到新视角视频合成,引入参考视频到多相机视频生成模型中,实现从新视角重新渲染输入视频。

SynCamMaster 的技术原理

  • 预训练的文本到视频模型:基于预训练的文本到视频的扩散模型,根据文本描述生成一致的3D视频内容。
  • 多视图同步模块:引入多视图同步模块,模块被集成到每个Transformer块中,用于维护不同视角间的外观和几何一致性。
  • 相机编码器:将相机的外部参数(如旋转矩阵和平移向量)编码到与空间特征相同维度的嵌入空间中。
  • 交叉视角自注意力:在多视图同步模块中,使用交叉视角自注意力层聚合来自不同视角的特征,实现视图间的信息交流和同步。
  • 混合训练数据集:设计混合训练方案,结合多相机图像、单目视频和虚幻引擎渲染的多相机视频。
  • 渐进式训练策略:推出渐进式训练策略,逐渐增加训练中不同视角之间的相对角度差异,提高模型在处理大视角差异时的性能。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值