CV每日论文--2024.7.3-CSDN博客

本文链接：https://blog.csdn.net/u012854516/article/details/140258764

1、HouseCrafter: Lifting Floorplans to 3D Scenes with 2D Diffusion Model

中文标题：HouseCrafter：使用 2D 扩散模型将平面图提升为 3D 场景

简介：HouseCrafter是一种新的方法,能够将平面图转换为完整的大型3D室内场景(如房屋)。它的关键思路是采用在网络规模图像上训练的2D扩散模型,生成在场景不同位置具有一致多视角颜色(RGB)和深度(D)的图像。具体来说,基于平面图,该模型会在采样的位置自回归地批量生成RGB-D图像,其中先前生成的图像被用作条件来生成附近位置的图像。模型中全局的平面图和注意力设计确保了生成图像的一致性,从而可以重建完整的3D场景。

通过对3D-Front数据集的广泛评估,研究者展示了HouseCrafter能够生成高质量的房屋级别3D场景。消融实验也验证了不同设计选择的有效性。研究者将在未来发布代码和模型权重。项目页面地址为: https://neu-vi.github.io/houseCrafter/。

2、EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

中文标题：EVF-SAM：文本提示分段任意模型的早期视觉语言融合

简介：本文提出了一种名为EVF-SAM的方法,利用文本提示编码器(如CLIP或LLM)来改善Segment Anything Model(SAM)的指代分割能力。EVF-SAM采用基于早期视觉-语言融合的方式,使用多模态提示(包括图像和文本)来生成指代提示,并将其输入到SAM模型进行分割。

实验结果表明,多模态提示和早期融合的视觉-语言模型对于促进SAM进行准确的指代分割非常有益。EVF-SAM在RefCOCO/+/g数据集上取得了最先进的性能,证明了早期视觉-语言融合对于促进SAM的优越性。与基于大型多模态模型的先前SAM方法相比,具有1.32B参数的EVF-SAM实现了显著更高的性能,同时减少了近82%的参数。

总之,本文提出的EVF-SAM方法通过利用文本提示编码器和早期视觉-语言融合,有效地改善了SAM的指代分割能力,在保持较小模型参数的同时取得了出色的性能。

3、ASSR-NeRF: Arbitrary-Scale Super-Resolution on Voxel Grid for High-Quality Radiance Fields Reconstruction

中文标题：ASSR-NeRF：体素网格上的任意尺度超分辨率，用于高质量辐射场重建

简介：本文提出了一种新的框架——任意尺度超分辨率神经辐射场(ASSR-NeRF),用于超分辨率新视角综合(SRNVS)。该方法通过隐式或显式表示构建辐射场,可以在任意尺度上执行新视角综合(NVS)。但使用低分辨率(LR)优化进行高分辨率新视角综合(HRNVS)时,基于NeRF的方法通常会导致过度平滑。

为了解决这一挑战,本文提出了一种基于注意力的VoxelGridSR模型,可以直接在优化的体积上执行3D超分辨率(SR),以实现多视角一致性的SR。这种方法在不同场景上进行训练,确保了其泛化性。对于使用LR视图训练的未见过场景,可以直接应用VoxelGridSR进一步优化体积并实现多视角一致的SR。

作者通过定量和定性分析,证明了该方法在SRNVS方面取得了显著的性能。与单图像SR方法相比,VoxelGridSR可以利用多视角信息,实现更加一致的高分辨率视图合成。