点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
导读
本文提出了 MMGDreamer,一种基于混合模态图(Mixed-Modality Graph)的双分支扩散模型,用于实现几何精准可控的3D室内场景生成。该方法通过引入混合模态节点(支持文本、图像或混合输入)、视觉增强模块(增强文本节点的视觉特征)和关系预测器(推断缺失的物体间关系),显著提升了场景生成的几何控制能力和整体真实性,在多项指标上达到SOTA性能。
论文:https://arxiv.org/abs/2502.05874
yangzhifeio.github.io/project/MMGDreamer
代码:github.com/yangzhifeio/MMGDreamer
引言
在虚拟现实、室内设计等领域,生成高真实感且几何可控的3D场景是一项关键挑战。现有方法主要依赖文本描述构建场景图,但文本难以精确描述物体几何细节,且无法灵活支持多模态输入。为此,我们提出了MMGDreamer,其核心亮点包括:
🔹混合模态图 (MMG) :允许节点融合文本与图像信息,同时支持灵活关系设定,使生成的3D场景更具可控性。
🔹视觉增强模块 (Visual Enhancement Module) :基于文本表示构造视觉特征,提升仅文本输入时的物体几何控制生成能力。
🔹关系预测模块 (Relation Predictor) :利用图卷积网络(GCN)推测缺失的物体关系,使场景布局更合理。
🔹双分支扩散模型 (Dual-Branch Diffusion Model) :分别处理场景布局和物体形态,提高生成质量。
研究背景与动机
可控 3D 场景生成:在虚拟现实和室内设计等领域,生成具有高度真实感和可控性的 3D 场景具有重要应用价值。场景图(Scene Graph)作为一种数据表示方式,能够有效抽象场景内容和物体间的关系,便于场景的生成和操纵。
现有方法的局限性:当前基于图的方法主要依赖文本输入,难以精确描述生成场景中物体的几何形状,导致对物体几何形状的控制不足。此外,这些方法对用户输入的灵活性较差,限制了其在实际应用中的表现。
方法
1. 输入表示:混合模态图(Mixed-Modality Graph, MMG)
2. 图增强模块(Graph Enhancement Module)
图增强模块的作用是进一步提升混合模态图的表现力和完整性,分为两个关键子模块:
(1) 视觉增强模块(Visual Enhancement Module)
(2) 关系预测器(Relation Predictor)
3. 双分支扩散模型(Dual-Branch Diffusion Model)
双分支扩散模型负责生成最终的3D场景,包括场景的布局(Layout)与物体的几何形状(Shape):
(1) 图编码器(Graph Encoder)
(2) 布局分支(Layout Branch)
(3) 形状分支(Shape Branch)
4. 模型训练与推理策略(Training & Inference)
模型训练分为两个阶段:
第一阶段:分别训练视觉增强模块和关系预测器,独立优化以提升节点的视觉特征与关系预测精度。
第二阶段:以混合模态图作为输入,同时优化图编码器和布局、形状分支的双分支扩散模型。
推理阶段:
从混合模态图开始,依次经过视觉增强模块和关系预测器生成混合增强图。
最终通过双分支扩散模型生成高质量、布局合理、几何精准的3D室内场景。
实验结果
定量实验
为客观评估MMGDreamer模型生成场景的真实感与几何控制能力,我们采用了 FID(Fréchet Inception Distance)、FIDCLIP 和 KID(Kernel Inception Distance) 三个权威指标,在SG-FRONT数据集上与当前最新的场景生成方法EchoScene进行了对比评测。
实验结果表明,当使用混合模态节点进行场景图表达时,MMGDreamer显著优于EchoScene。尤其是在生成客厅场景时,MMGDreamer(同时启用视觉增强模块与关系预测模块,即MM+R)表现出了明显优势,FID指标降低了9%,FIDCLIP指标降低了8%,KID指标降低了33%
定性实验
为了更直观地展示MMGDreamer的优势,我们进一步选取卧室、餐厅与客厅三种典型室内场景进行视觉效果的对比分析:
卧室场景:MMGDreamer准确生成了床和床头柜等物体的精确几何结构,而Graph-to-3D和EchoScene方法则存在明显的几何扭曲与不连贯现象。
餐厅场景:在生成椅子靠背和餐具柜等复杂物体时,Graph-to-3D和EchoScene方法出现了严重的几何变形和细节缺失问题。相比之下,MMGDreamer不仅保留了物体的准确几何结构,还精准还原了餐具柜上复杂的细节装饰。
客厅场景:针对复杂的客厅环境,MMGDreamer准确生成了沙发、咖啡桌与灯具,并保证了物体之间空间布局的连贯性,生成物体与输入图像高度一致。反观其他方法,则频繁出现家具几何扭曲或细节缺失的问题。例如,EchoScene生成的沙发表面存在明显孔洞,显著偏离真实几何形态。
物体级生成质量分析(Object Generation)
除了场景整体的表现,我们进一步分析了单个物体的生成效果,采用了经典的点云评估方法PointFlow,并选用 MMD(Minimum Matching Distance)、COV(Coverage) 和 1-NNA(1-Nearest Neighbor Accuracy) 三项指标,从精细几何控制和分布相似度两个维度进行深入评测。实验结果表明,MMGDreamer在物体级的生成质量上展现出高度的几何精准性与一致性。
结论
本文提出了MMGDreamer,一种基于混合模态图(Mixed-Modality Graph)和双分支扩散模型的新型3D室内场景生成框架。MMGDreamer通过灵活融合文本与视觉信息,有效解决了传统方法模态单一、几何控制精度不足的问题。同时,视觉增强模块显著提升了物体的几何细节生成能力,关系预测器有效补全了缺失的物体关系,优化了整体场景的布局合理性。大量实验表明,MMGDreamer在多个关键指标上超越了当前主流方法,成功实现了精准可控、真实且连贯的3D室内场景生成,为虚拟现实、增强现实、室内设计及游戏开发等领域提供了有力的技术支持与广泛的应用前景。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人! ▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看