论文阅读Anisotropic Convolutional Networks for 3D Semantic Scene Completion

论文提出了一种名为AIC-Net的新型模型,用于3D语义场景补全。AIC-Net采用各向异性卷积模块,能自适应地调整3D接受场,以处理不同大小对象的建模。通过堆叠AIC模块,实现了在保持参数可控的同时增强体素建模能力。实验表明,AIC-Net在NYU-Depth-v2和NYUCAD数据集上超越了现有方法,取得了最先进的性能。
摘要由CSDN通过智能技术生成

Anisotropic Convolutional Networks for 3D Semantic Scene Completion

用于3D语义场景补全的各向异性卷积网络

源码:https://waterljwant.github.io/SSC
作者主页:https://www.kaihan.org/

摘要

作为体素级的标注任务(voxel-wise labeling task),语义场景补全(SSC)试图从单个深度和RGB图像中同时推断场景的占有率和语义标签。SSC面临的关键挑战是如何有效地利用3D环境对形状、布局和可见性有很大变化的各种对象或物品进行建模。为了处理这种变化,我们提出了一种新的模块,称为各向异性卷积(anisotropic convolution),它具有标准三维卷积及其一些变体等竞争方法所不具备的灵活性和强大的性能。与局限于固定3D感受野的标准3D卷积不同,我们的模块能够以体素的方式模拟维度各向异性。
基本思想是通过将3D卷积分解成三个连续的1D卷积来实现各向异性3D感受野,并且每个这样的1D卷积的核大小是动态自适应地确定的。
通过堆叠多个这样的各向异性卷积模块,可以进一步增强体素建模能力,同时保持模型参数的可控量。在NYU-Depth-v2和NYUCAD两个SSC基准上的大量实验表明了该方法的优越性能。我们的代码可以在https://waterljwant.github.io/SSC上找到。

1、介绍

在这项工作中,我们提出了一种新的模型,称为各向异性卷积,以模拟对象的变化,其性质是灵活和强大的,这是其他方法所不能比拟的。与限于固定感受野的标准3D卷积及其一些变体相比,新模块以体素的方式适应维度各向异性特性,并实现具有不同大小的感受野,即各向异性感受野。其基本思想是将3D卷积运算分解成三个连续的1D卷积,并为每个这样的1D卷积配备不同核大小的混合器。沿着每个1D卷积的这些核的组合权重是以体素方式学习的,因此各向异性3D上下文基本上可以通过连续执行这样的自适应1D卷积来建模。虽然我们使用多个内核,例如3个,由于维度分解技巧,与3D模型相比,我们的模型仍然是参数经济的。通过堆叠多个这样的模块,可以获得更灵活的3D上下文,以及从这样的上下文到体素输出的有效映射功能
这项工作的贡献如下:

  • 针对语义场景完成任务(SSC),提出了一种新的各向异性卷积网络(AIC-Net)。它通过自动为不同的体素选择适当的接受场,使得在3D场景中建模对象变化时具有灵活性。
  • 我们提出了一种新的模块,称为各向异性卷积(AIC)模块,它以体素的方式适应维度的各向异性特性,从而隐式地实现了不同大小的3D核。
  • 与标准的三维卷积单元相比,新模块对计算的要求更低,参数效率更高。它可以作为一个即插即用模块来代替标准的3D卷积单元。

我们在两个SSC基准上对我们的模型进行了彻底的评估。我们的方法在很大程度上超过了现有的方法,建立了新的最先进的方法。代码将可用。

2、相关工作

2.1 Semantic Scene Completion

语义场景补全

  • 【16】SSCNet是由Song等人提出的。是第一个尝试同时预测端到端网络中场景的语义标签和体积占有率的工作。然而,3D CNN昂贵的成本限制了网络的深度,这阻碍了SSCNet实现的准确性。

end-to-end net:端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征,这一点在图像问题上尤为突出,因为图像像素数太多,数据维度高,会产生维度灾难,所以原来一个思路是手工提取图像的一些关键特征,这实际就是就一个降维的过程。

  • 【21】Zhang等在SSC中引入了空间组卷积(spatial group convolution, SGC)来加快三维密集预测任务的计算。但其精度略低于SSCNet。
  • 【8】Guo和Tong将二维CNN和三维CNN相结合,提出了视点体积网络(VVNet),有效地降低了计算代价,增强了网络深度。
  • 【11】【23】Li等人使用深度和体素作为混合网络的输入,并在训练时考虑不同位置的元素的重要性。
  • 【6】Garbade等人提出了一种联合利用深度和视觉信息的双流方法。具体来说,首先对推断出来的二维语义信息构造一个不完整的三维语义张量,然后采用vanilla 3D CNN来推断完整的3D语义张量。
  • 【13】Liu等也采用RGB-D图像作为输入,提出了两阶段框架,依次进行二维语义分割和三维语义场景完成,通过2D-3D重投影层连接。然而,他们的两阶段方法可能会受到误差计算的影响,产生错误的结果。虽然已经取得了显著的改进,但这些方法受到3D卷积成本和固定接受野的限制。
  • 【10】Li等为三维SSC任务引入了维数分解残差网络(DDRNet)。虽然它能在较少的参数下获得较好的准确性,但它仍然保留了使用固定感受野的局限性。

2.2 Going Beyond Fixed Receptive Field

超越固定的接受域
大多数现有模型利用固定大小的内核来建模固定的可视上下文,这在处理不同大小的对象时缺乏健壮性和灵活性。

  • 【17,19,18】 Inception考虑了多个大小的接受域,它通过使用不同的卷积内核启动多分支cnn来实现这个概念。
  • 【2】类似的思想也出现在atrous spatial pyramid pooling(ASPP)中,通过在特征图顶部设置多个不同扩张速率的平行卷积来获取多尺度信息。这些策略本质上包含了多尺度融合的思想,并且相同的融合策略统一应用于所有位置。
  • 【21】zhang等人通过对不同内核大小的卷积进行加权来选择更合适的接受域。
  • 【9】STN设计了一个空间变压器模块来实现平移、旋转和缩放的不变性。然而,它将整个图像视为一个单元,而不是明智地调整接感受野像素。
  • 【3】变形CNN (DCNv1)试图根据物体的规模和形状自适应地调整感受野的空间分布。具体地说,它利用偏移量来控制空间采样。
  • 【25】DCNv2通过叠加更多可变形的卷积层来提高建模能力,并提出使用教师网络来指导训练过程。然而,DCNv2仍然努力控制偏移量,以便只关注相关像素。

与上述方法不同的是,本文提出的AIC模块是为三维任务量身定制的,特别是针对SSC。通过明智地学习各向异性的接受场体素,它能够处理形状、布局和可见性变化的对象。同时实现了语义补全精度和计算代价的权衡。

3、Anisotr

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值