IJCAI 2024 | 更快、更便捷的3D场景生成算法

关注公众号,发现CV技术之美

论文 FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting已被国际人工智能顶级学术会议IJCAI-2024主会收录,由中山大学智能工程学院完成。论文第一作者为2023级硕士研究生马义坤,通讯作者为其导师金枝副教授。

4929c682a5517ee7ea65344b46bdc9c3.png
  • 原文链接:https://arxiv.org/abs/2405.05768

  • Code:https://github.com/Mr-Ma-yikun/FastScene

三维模型在虚拟现实增强、游戏电影行业、智能家居等有着广泛应用。生成式模型的发展使得建立三维模型更加便捷,例如根据文本或图像生成三维物体。然而三维场景的生成仍具有较大挑战性。

该工作提出了一种新颖的三维场景快速生成方法,基于文本提示,利用全景图和空间运动约束,提出了渐进式全景修复策略,旨在得到高质量的多视角图像。此外,设计了全景图的高斯训练方法,能够更好的解决高斯泼溅无法处理非透视视角的问题。


Abstract

本文提出了一种快捷有效的3D室内场景生成算法,称为FastScene。对于用户,只需要输入一段描述室内的文本,便能快速且高质量的生成3D高斯场景。

本文的贡献与创新点如下:

  • 提出了一个新颖的文本到3D室内场景生成框架FastScene,能够较为快速且高质量的生成3D高斯场景,且不需要预定义相机参数和运动轨迹,是一种友好的场景生成范式。

  • 提出了一种渐进式的全景图新视角修复算法PNVI,能够逐渐得到不同视角的干净全景图。并且合成了一个大规模的球面掩码数据集。

  • 通过引入多视角投影策略,解决了3D高斯无法使用全景图重建的问题。


Method

bd7ff00700a3b62348b026ec9ccc2b8a.png

Network Architecture

图1给出了本文所提出的FastScene框架,包括:根据文本生成全景图与粗视角合成、渐进式新视角全景图修复、以及使用全景图进行3D高斯重建。

facb0502c11847a36d72353af145adec.png

文本生成全景图与粗视角合成。与透视视角相比,全景图的一个关键几何特性是边界的连续性。此外,全景图囊括了整个场景表面的信息,相比透视图具有更加显式的几何约束。因此,我们选择全景图作为本文的操作对象。具体来说,首先输入一段文本,例如“一个带有沙发和桌子的舒适的客厅”,然后使用Diffusion360算法生成一张具有连续边界的全景图。然后,我们使用EGformer估计其深度,从而得到空间的立体信息。

为了得到不同位姿下的新视角,我们设计了粗视角合成策略(图2)。首先根据全景图坐标计算每个点的经纬角度:

08d141b629df7f4507c1be44e4d8ba13.png

然后,根据这两种角度,计算三维球面基坐标:

01f7ecf64310f870b089494d2e3e6874.png

因此三维球面坐标可以表示为基坐标与深度值的相乘:

5d92a7ca7c999a25ddb8058e6b4b1c56.png

对于移动后的新坐标系,其基坐标可以用原坐标系表示为:

696eb7530acd1d43f7b195f93d02d69d.png

那么,新坐标系下的全景坐标可以表示为:

2e0475dc2afb746de07100560383310d.png

因此,接下来只需要判断哪些点位于有效坐标范围,并将无效坐标设为mask,从而得到带有孔洞的新视角全景图:

渐进式全景修复。 得到了带有Mask的全景图后,我们希望修复它获得干净视角。然而,

a414f8ea613d7016b53ef0b1f523b0a6.png 8968f7dfaa458933180046c602abd277.png f735ebbf702ab2848ec637f11696691f.png

当我们尝试直接对大距离的全景图修复时,由于无效像素过多,因此修复质量并不理想。如表1所示,直接移动0.33m的孔洞占比为64.3%,这是不利于修复的。因此我们将大距离的移动划分为多个小微元的移动叠加,例如每次只移动0.02m。

此外,我们发现直接对全景图修复,随着移动步数的增加,容易造成扭曲和伪影。因此我们提出使用等距投影,将全景图投影到六张cubemap图像,然后进行修复。

全景3D高斯重建。 得到了多视角的干净的全景图后,我们希望我使用3D高斯重建场景。3D高斯需要先使用COLMAP,从输入视角重建稀疏点云。然而,现在有的COLMAP架构只能处理透视视角输入,无法处理全景图结构。因此,我们引入了一种多视角投影策略,根据用户需求,将全景图投影为多张透视视角,继而使用COLMAP进行稀疏点云重建。图4表明,经过我们的多视角投影策略,可以较好的重建出场景与位姿:

c70812e099046da6acb585d2afc4fffc.png

Experiments

Main Results

cb3537a2b08e31760589156a7371711c.png

表2给出了FastScene和其它三维场景生成模型的对比,我们选择CLIP评分、NIQE以及BRISQUE作为评价指标。从表中可以发现,我们的方法不仅具有较好的指标评估性能,且生成速较快。

此外,为了更全面的展示我们的方法的性能,我进行了了定性的评估:

c07bce497e9adad984d6a20264c41195.jpeg

图5给出了不同场景生成方法的渲染视角的视觉效果对比,可以看到:我们的FastScene不仅生成的视角质量较高,且场景连续性也能够较好的保证。

更多的实验结果和实验细节,欢迎阅读我们的论文原文以及补充材料。

Ablation Studies

为了验证我们的渐进式全景视角合成策略的有效性,我们设计了两组消融实验:

直接对全景图修复。我们首先在合成的全景数据集上重新训练AOT-GAN。然而,我们发现小距离移动下的修复结果较好。但随着移动步数增加,图像扭曲和畸变越来越严重,我们认为这是由于移动过程中不可避免的深度估计误差以及全景特殊的形状结构导致的。

直接修复大距离移动的全景图。我们直接对大距离移动下全景图进行修复,由于其具有较大的孔洞占比,因此难以得到干净的图像。

表4和图8的对比结果可以进一步验证我们的渐进式修复方法的有效性。

e752d1750dbda74655ad8fb66179ba32.png ce9813cf7168c46bb56942a5c038658d.png

中山大学智能工程学院的前沿视觉实验室( FVL: https://fvl2020.github.io/fvl.github.com/  )由学院金枝副教授建设并维护,实验室目前聚焦在图像/视频质量增强、视频编解码、3D 重建和无接触人体生命体征监测等领域的研究。

旨在优化从视频图像的采集、传输到增强以及服务后端应用的完整周期。我们的目标是开发通用的概念和轻量化的方法。为了应对这些挑战,我们将持之以恒地进行相关的研究,并与其他实验室进行合作,希望利用更多关键技术,解决核心问题。长期欢迎有志之士加入我们!

最新 AI 进展报道
请联系:amos@52cv.net

65f02f9f12b818435a4f5852a889c792.jpeg

END

欢迎加入「3D场景交流群👇备注:3D

e3aa072b9b0126a426fa514aed05d12d.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值