MVGenMaster：复旦联合阿里等实验室推出的多视图扩散模型

最新推荐文章于 2025-05-07 09:58:42 发布

蚝油菜花

最新推荐文章于 2025-05-07 09:58:42 发布

阅读量869

点赞数 9

分类专栏：每日 AI 项目与应用实例文章标签：人工智能开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19841021/article/details/144223748

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

多视图生成：从单一图像生成多达100个新视图，适用于多种NVS任务。
3D先验整合：通过度量深度和相机姿态的3D先验，确保3D结构的一致性。
大规模数据集支持：结合MvD-1M数据集，包含160万场景，提升模型表现。

正文

MVGenMaster 是什么

公众号: 蚝油菜花 - MVGenMaster

MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型，专注于新视角合成（NVS）任务。该模型通过整合3D先验信息，显著提升了NVS的泛化和3D一致性。MVGenMaster能够从单一图像出发，通过单次前向传播生成多达100个新视图。

研究团队还推出了一个包含160万场景的大型多视图图像数据集MvD-1M，结合多项训练和模型优化技术，增强模型在大规模数据集上的表现。

MVGenMaster 的主要功能

多视图生成：从单一图像或多个参考图像生成多达100个新视图，适用于不同的NVS任务，如单视图NVS、两视图插值和任意参考视图与目标视图的灵活NVS。
3D先验整合：通过度量深度和相机姿态的3D先验，模型在2D扩散模型中保持了一致的3D结构。
灵活性和泛化：模型设计灵活，能适应不同的视角和场景，展现出在多种场景下的泛化能力。
高效前向过程：在单次前向过程中完成多视图的生成，无需复杂的迭代推理或数据集更新。
大规模数据集支持：结合MvD-1M数据集，包含160万场景和对齐良好的度量深度。

MVGenMaster 的技术原理

3D先验：MVGenMaster通过度量深度和相机姿态创建3D先验，3D先验在模型中被用来指导新视图的生成，确保3D结构的一致性。
几何扭曲：基于几何扭曲函数，模型将参考视图的像素和规范坐标映射（CCM）从源视图扭曲到目标视图。
多视图扩散模型（LDM）：MVGenMaster基于潜在扩散模型（LDM），学习如何从参考图像和3D先验中合成目标视图的图像。
注意力机制：模型使用全注意力机制，跨越所有参考和目标视图，捕获密集的相机姿态表示。
Plücker射线：使用Plücker射线表示相机姿态，为模型提供精确的相机位置和方向信息。
关键重缩放技术：为处理极长序列的目标视图，MVGenMaster引入关键重缩放技术，增强参考视图的指导，平衡注意力稀释问题。

资源

项目官网：https://ewrfcas.github.io/MVGenMaster
GitHub 仓库：https://github.com/ewrfcas/MVGenMaster
arXiv 技术论文：https://arxiv.org/pdf/2411.16157

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。