CV论文--2024.3.25_mvsplat-CSDN博客

本文链接：https://blog.csdn.net/u012854516/article/details/137013629

1、Zero-Shot Multi-Object Shape Completion

中文标题：零样本多对象形状完成

简介：我们提出了一种3D形状补全方法，可以从单个RGB-D图像中恢复复杂场景中多个物体的完整几何形状。尽管单个物体的3D形状补全已经取得了显著进展，但在高度混乱的现实世界多物体场景中实现高质量重建仍然是一个挑战。

为了解决这个问题，我们引入了一种名为OctMAE的架构，它结合了Octree U-Net和潜在的3D MAE。OctMAE通过局部和全局几何推理实现高质量且接近实时的多物体形状补全。考虑到一个朴素的3D MAE在计算上可能难以处理和内存密集，我们采用了一种新颖的遮挡掩蔽策略和3D旋转嵌入，显著提高了运行时间和形状补全质量。

为了推广到不同场景中的各种对象，我们创建了一个大规模的逼真数据集，其中包含来自Objaverse数据集的多样化的12K个3D物体模型。这些模型在基于物理的定位下呈现多物体场景。我们的方法在合成和真实世界数据集上均优于当前最先进的方法，并展示出强大的零样本能力。

2、MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images

中文标题：MVSplat：稀疏多视图图像的高效 3D 高斯分布

简介：我们提出了一种名为MVSplat的有效前馈3D高斯喷溅模型，该模型是从稀疏的多视图图像中学习得到的。为了准确地定位高斯中心，我们建议通过在3D空间中进行平面扫描来构建成本体积表示。成本体积中存储的跨视图特征相似性可以为深度估计提供有价值的几何线索。

我们联合学习高斯基元的不透明度、协方差和球谐系数，并仅依靠光度监督来学习高斯中心。通过广泛的实验评估，我们展示了成本体积表示在学习前馈高斯喷溅模型中的重要性。

在大规模的RealEstate10K和ACID基准测试中，我们的模型实现了最先进的性能，并具有最快的前馈推理速度（22 fps）。与最新的最先进方法pixelSplat相比，我们的模型使用的参数少了10倍，推理速度提高了2倍以上，同时提供了更高的外观和几何质量，以及更好的跨数据集泛化性能。

3、ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer

中文标题：ODTFormer：基于 Transformer 的立体相机高效障碍物检测与跟踪

简介：本文介绍了一种名为ODTFormer的基于Transformer的模型，用于解决机器人自主导航中的障碍物检测和跟踪问题。对于检测任务，我们的方法利用可变形注意力构建了一个3D成本体积，该体积以体素占据网格的形式逐步解码。通过匹配连续帧之间的体素，我们进一步实现了对障碍物的跟踪。整个模型可以进行端到端优化。

通过在DrivingStereo和KITTI基准测试上进行大量实验，我们的模型在障碍物检测任务中取得了最先进的性能。同时，我们报告了与最先进的障碍物跟踪模型相当的准确性，而仅需要它们计算成本的一小部分，通常是十倍到二十倍的差距。我们将公开发布代码和模型权重。