4.19-4.26周报

最新推荐文章于 2024-08-27 22:39:52 发布

abaabahh

最新推荐文章于 2024-08-27 22:39:52 发布

阅读量836

点赞数 16

文章标签：机器学习 opencv python

本文链接：https://blog.csdn.net/abaabahh/article/details/138200096

版权

该论文介绍了一种创新的3D高斯补全方法InFusion，利用预训练的扩散模型提升修复质量和效率。InFusion通过深度补全和渐进修复策略，解决了大面积遮挡问题，尤其在纹理清晰度和速度上表现出色。

摘要由CSDN通过智能技术生成

导读

论文标题：InFusion: Inpainting 3D Gaussians via Learning Depth Completion from Diffusion Prior

机构单位: 中科大，港科大，蚂蚁集团，阿里巴巴集团

Github仓库: https://github.com/ali-vilab/InFusion

该论文引入一种创新的3D高斯补全方法InFusion，利用了预训练扩散模型先验，训练了一个深度补全模型。该模型显著提高了3D高斯图像修复的保真度和效率。同时， InFusion还可以通过渐进的补全方式应对涉及大面积遮挡的挑战性场景。

引言

近年来3D高斯作为新视角合成的一种重要方法，因其能以惊人的渲染速度制作出具有真实感的图像而受到重视。研究关注于3D高斯的补全任务，这对于3d场景编辑至关重要，有效填补了确实部分，并为进一步的编辑方式奠定基础。现有方法对3D高斯补全的初步探索通常是使用对不同角度的渲染图象进行图像层次的补全，迭代的使用修复后的2D多视图图像作为新的训练数据。但是，这种方法往往会因生成过程中的不一致而产生模糊的纹理，且速度缓慢。

值得注意的是，当初始点在3D场景中精确地定位时，高斯模型的训练质量会显著提高。因此，在为需补全高斯分配初始高斯点时，进行深度补全是关键的。该论文引入了一种创新的3D高斯补全方法InFusion。方法表明，InFusion可以准确确定初始点的位置，在与未修复区域的对齐以及重构物体深度方面展现了显著的优越性。这种增强的对齐能力确保了补全高斯和原3D场景的无缝合成。此外， InFusion可以通过渐进的补全方式来解决复杂案例。

技术贡献

该论文的主要贡献有如下两点：

1.InFusion技术通过整合预训练的扩散模型，成功地增强了3D高斯图像的修复质量与处理效率，为3D图像修复领域带来了创新。

2.面对3D图像中存在的大面积遮挡难题，InFusion技术通过分阶段的补全方法，有效地提升了处理复杂场景的能力，证明了其在实际应用中的实用性和有效性。

方法介绍

1.场景编辑初始化：根据编辑需求和提供的掩码，在训练3d高斯场景的过程中，利用预先标记的掩码，构造残缺的高斯场景。

2.深度补全：选择一个参考视图，并对该视角渲染得到的单张RGB图像利用图像修复模型如（Stable Diffusion XL Inpainting ）进行修复。再利用深度补全模型基于观测图像预测出缺失区域的深度信息，生成补全后的深度图。

具体来说，深度补全模型接受三个输入：1.从3D高斯渲染得到的深度图，2.相应的修复后彩色图像，3.掩码，其中掩码定义了需要补全的区域。先使用变分自编码器（VAE）将深度图和彩色图像编码到潜在空间中。其中通过将深度图重复使其适合VAE的输入要求，并应用线性归一化，使得深度值主要位于[-1,1]区间内。将编码后的深度图加噪得到的近高斯噪声，将1.掩码区域设置为0的编码后的深度图，2.编码后的RGB指导图像，以及3.掩码图像，在channel维度进行连接，输入到U-Net网络进行去噪，逐步从噪声中恢复出干净的深度潜在表示。再次通过VAE解码得到补全后的深度图。

3D点云构建：使用补全后的深度图和对应的彩色图像，通过3D空间中的反投影操作，将2D图像点转换为3D点云，这些点云随后与原始的3D高斯体集合合并。

Gaussian模型优化：合并后的3D点云通过进一步很少迭代次数的优化过程进行调整，以确保新补全的高斯体与原始场景在视觉上的一致性和平滑过渡

渐进性修复：对于富含遮挡的复杂场景，多个参考视图是必不可少的。为了应对这些挑战，从所选视图 S ={s(i1), s(i2),..., s(ir )}与初始参考视图 s(i1) 组合。随后，我们从下一个参考视图 s(i2) 渲染彩色图像、深度图和相关掩码。重复此过程，对每个连续参考视图使用高斯修复，直到解决视图 s(ir)。这种渐进式技术有效地适应了复杂性。

部分结果展示

InFusion与baseline生成的修复结果和相应的新视图并排比较。虽然基线能够重建缺失区域的广泛轮廓，但它们通常会产生缺乏清晰度的纹理。另一方面，我们的方法始终在所有视图中产生精细的纹理。

图像质量按照 SPInNerf 中的设置报告内绘场景的 LPIPS 和 FID 分数。如图 1 所示，InFusion在两个指标上都优于baseline，获得了最好的分数。在速度方面，InFusion显示出显着的优势。

深入研究了更具挑战性的场景，包括那些具有多目标遮挡的场景，InFusion能够非常精准地修复被遮挡的缺失片段。

InFusion允许用户轻松修改目标区域的外观和纹理。

总结与展望

提出了一种名为InFusion的3D场景修复技术，它通过应用高斯模型和扩散先验显著提升了3D图像修复的质量与效率。经过严格的定量和定性评估，证实了InFusion在新视图合成等3D应用领域的实用性和优势。尽管该技术在处理光照变化和复杂结构化对象重建方面面临挑战，但它成功地架起了深度学习模型与3D场景编辑之间的桥梁，为未来的技术进步和应用优化提供了广阔的空间。尽管InFusion在新视图合成领域展现出巨大的应用潜力，但它在处理光照变化和重建高度复杂结构化对象时仍需进一步优化。这些问题的解决将是推动InFusion技术进一步发展的关键。

思考与讨论

将深度图和参考图像从图像空间投影到3D坐标形成彩色点云，获得的点云异常点怎么处理？

为了消除掩码边缘的高斯异常值，最初从未投影的点云构建一个 KDTree。随后，该KDTree用于定位原始点云中的最近点，返回来自指定距离阈值内原始云的点。随后，我们利用点云数据(pcd)库中的“remove_radius_outlier”方法来识别原始点云中的点，该点云在指定半径内的邻居数量不足。执行这些点与先前使用 KDTree 确定的相似点的交集，从而有效地去除掩码边缘的高斯异常值。

abaabahh

关注

16
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
4.19-4.26周报

将编码后的深度图加噪得到的近高斯噪声，将1.掩码区域设置为0的编码后的深度图，2.编码后的RGB指导图像，以及3.掩码图像，在channel维度进行连接，输入到U-Net网络进行去噪，逐步从噪声中恢复出干净的深度潜在表示。现有方法对3D高斯补全的初步探索通常是使用对不同角度的渲染图象进行图像层次的补全，迭代的使用修复后的2D多视图图像作为新的训练数据。3D点云构建：使用补全后的深度图和对应的彩色图像，通过3D空间中的反投影操作，将2D图像点转换为3D点云，这些点云随后与原始的3D高斯体集合合并。
复制链接

扫一扫