MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图生成:从单一图像生成多达100个新视图,适用于多种NVS任务。
  2. 3D先验整合:通过度量深度和相机姿态的3D先验,确保3D结构的一致性。
  3. 大规模数据集支持:结合MvD-1M数据集,包含160万场景,提升模型表现。

正文

MVGenMaster 是什么

公众号: 蚝油菜花 - MVGenMaster

MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性。MVGenMaster能够从单一图像出发,通过单次前向传播生成多达100个新视图。

研究团队还推出了一个包含160万场景的大型多视图图像数据集MvD-1M,结合多项训练和模型优化技术,增强模型在大规模数据集上的表现。

MVGenMaster 的主要功能

  • 多视图生成:从单一图像或多个参考图像生成多达100个新视图,适用于不同的NVS任务,如单视图NVS、两视图插值和任意参考视图与目标视图的灵活NVS。
  • 3D先验整合:通过度量深度和相机姿态的3D先验,模型在2D扩散模型中保持了一致的3D结构。
  • 灵活性和泛化:模型设计灵活,能适应不同的视角和场景,展现出在多种场景下的泛化能力。
  • 高效前向过程:在单次前向过程中完成多视图的生成,无需复杂的迭代推理或数据集更新。
  • 大规模数据集支持:结合MvD-1M数据集,包含160万场景和对齐良好的度量深度。

MVGenMaster 的技术原理

  • 3D先验:MVGenMaster通过度量深度和相机姿态创建3D先验,3D先验在模型中被用来指导新视图的生成,确保3D结构的一致性。
  • 几何扭曲:基于几何扭曲函数,模型将参考视图的像素和规范坐标映射(CCM)从源视图扭曲到目标视图。
  • 多视图扩散模型(LDM):MVGenMaster基于潜在扩散模型(LDM),学习如何从参考图像和3D先验中合成目标视图的图像。
  • 注意力机制:模型使用全注意力机制,跨越所有参考和目标视图,捕获密集的相机姿态表示。
  • Plücker射线:使用Plücker射线表示相机姿态,为模型提供精确的相机位置和方向信息。
  • 关键重缩放技术:为处理极长序列的目标视图,MVGenMaster引入关键重缩放技术,增强参考视图的指导,平衡注意力稀释问题。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值