CV每日论文--2024.7.3

1、HouseCrafter: Lifting Floorplans to 3D Scenes with 2D Diffusion Model

中文标题:HouseCrafter:使用 2D 扩散模型将平面图提升为 3D 场景

简介:HouseCrafter是一种新的方法,能够将平面图转换为完整的大型3D室内场景(如房屋)。它的关键思路是采用在网络规模图像上训练的2D扩散模型,生成在场景不同位置具有一致多视角颜色(RGB)和深度(D)的图像。具体来说,基于平面图,该模型会在采样的位置自回归地批量生成RGB-D图像,其中先前生成的图像被用作条件来生成附近位置的图像。模型中全局的平面图和注意力设计确保了生成图像的一致性,从而可以重建完整的3D场景。

通过对3D-Front数据集的广泛评估,研究者展示了HouseCrafter能够生成高质量的房屋级别3D场景。消融实验也验证了不同设计选择的有效性。研究者将在未来发布代码和模型权重。项目页面地址为: https://neu-vi.github.io/houseCrafter/。

2、EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

中文标题:EVF-SAM:文本提示分段任意模型的早期视觉语言融合

简介:本文提出了一种名为EVF-SAM的方法,利用文本提示编码器(如CLIP或LLM)来改善Segment Anything Model(SAM)的指代分割能力。EVF-SAM采用基于早期视觉-语言融合的方式,使用多模态提示(包括图像和文本)来生成指代提示,并将其输入到SAM模型进行分割。

实验结果表明,多模态提示和早期融合的视觉-语言模型对于促进SAM进行准确的指代分割非常有益。EVF-SAM在RefCOCO/+/g数据集上取得了最先进的性能,证明了早期视觉-语言融合对于促进SAM的优越性。与基于大型多模态模型的先前SAM方法相比,具有1.32B参数的EVF-SAM实现了显著更高的性能,同时减少了近82%的参数。

总之,本文提出的EVF-SAM方法通过利用文本提示编码器和早期视觉-语言融合,有效地改善了SAM的指代分割能力,在保持较小模型参数的同时取得了出色的性能。

3、ASSR-NeRF: Arbitrary-Scale Super-Resolution on Voxel Grid for High-Quality Radiance Fields Reconstruction

中文标题:ASSR-NeRF:体素网格上的任意尺度超分辨率,用于高质量辐射场重建

简介:本文提出了一种新的框架——任意尺度超分辨率神经辐射场(ASSR-NeRF),用于超分辨率新视角综合(SRNVS)。该方法通过隐式或显式表示构建辐射场,可以在任意尺度上执行新视角综合(NVS)。但使用低分辨率(LR)优化进行高分辨率新视角综合(HRNVS)时,基于NeRF的方法通常会导致过度平滑。

为了解决这一挑战,本文提出了一种基于注意力的VoxelGridSR模型,可以直接在优化的体积上执行3D超分辨率(SR),以实现多视角一致性的SR。这种方法在不同场景上进行训练,确保了其泛化性。对于使用LR视图训练的未见过场景,可以直接应用VoxelGridSR进一步优化体积并实现多视角一致的SR。

作者通过定量和定性分析,证明了该方法在SRNVS方面取得了显著的性能。与单图像SR方法相比,VoxelGridSR可以利用多视角信息,实现更加一致的高分辨率视图合成。

  • 22
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值