【ShapeConv2021】ShapeConv: Shape-aware Convolutional Layer for Indoor RGB-D Semantic Segmentation

ShapeConv: Shape-aware Convolutional Layer for Indoor RGB-D Semantic Segmentation

ShapeConv:用于室内RGB-D语义分割的形状感知卷积层


arXiv:2108.10528v1 [cs.CV] 24 Aug 2021
文章地址:https://arxiv.org/abs/2108.10528
代码地址:https://github.com/hanchaoleng/ShapeConv


摘要

  RGB-D语义分割在过去几年中引起了越来越多的关注。现有的方法大多使用同质卷积算子来消耗RGB和深度特征,而忽略了它们的内在差异。事实上,RGB值捕获投影图像空间中的光度外观属性,而深度特征在更大的上下文中编码局部几何体的形状以及其基础(其周围)。与基础相比,形状可能更固有,与语义的联系更强,因此对分割精度更为关键。受此观察的启发,我们引入了一个用于处理深度特征的形状感知卷积层(ShapeConv),其中深度特征首先被分解为形状分量和基础分量,然后引入两个可学习权重以独立地与它们协作,最后对这两个分量的重新加权组合应用卷积。ShapeConv是模型无关的,可以很容易地集成到大多数CNN中,以取代用于语义分割的普通卷积层。在三个具有挑战性的室内RGB-D语义分割基准(即NYU-Dv2(-13,-40)、SUN RGB-D和SID)上进行的大量实验证明了我们的ShapeConv在五种流行架构上使用时的有效性。此外,具有ShapeConv的CNN的性能得到了提高,而不会在推理阶段引入任何计算和内存增加。原因是,用于平衡ShapeConv中形状和基础分量之间重要性的学习权重在推理阶段变为常数,因此可以融合到下面的卷积中,从而形成与具有普通卷积层的网络相同的网络。


1导言

  随着深度传感器(如Microsoft Kinect[31])的广泛使用,RGB-D数据的可用性促进了RGB-D语义分割的发展,这是计算机视觉界不可或缺的任务。得益于卷积神经网络(CNN)的蓬勃发展,最近的研究大多求助于CNN来解决这个问题。卷积层被视为CNN的核心构建块,因此是RGB-D语义分割模型中的关键元素[6,13,15,17,21]。

图1.RGB-D图像形状为何重要的视觉演示。关于顶部的图像,具有相同颜色的线条共享相同的形状,但具有不同的底部。底部显示了相应的补丁。

  然而,RGB和深度信息本质上彼此不同。特别是,RGB值捕获投影图像空间中的光度外观属性,而深度特征在更大的上下文中编码局部几何体的形状以及其基础(周围)。因此,广泛用于消耗RGB数据的卷积算子可能不是处理深度数据的最佳算子。以图1为例,我们希望相同椅子的相应补丁具有相同的特征,因为它们具有相同的形状。形状是底层对象更固有的属性,与语义有更强的联系。我们期望在学习过程中实现形状不变性。当香草卷积算子应用于这些对应的面片时,由于其基本成分的差异,结果特征不同,阻碍了学习实现形状不变性。另一方面,不能为了追求当前层中的形状不变性而简单地丢弃基础组件,因为它们在具有更大上下文的后续层中形成形状。

  为了解决这些问题,我们提出了形状感知卷积层(ShapeConv),以学习形状和基础信息的重要性之间的自适应平衡,使网络有机会在必要时更多地关注形状信息,从而有利于RGB-D语义分割任务。我们首先将patch1分解为两个独立的组件,即基本组件和形状组件。面片值的平均值描述了面片在更大背景下的位置,从而构成了基本分量,而残差是面片中的相对变化,其描述了底层几何体的形状,从而构成形状分量。具体而言,对于输入斑块(如图1中的P1),基础描述了斑块的位置,即距观察点的距离;而形状表示补丁是什么,例如椅子角。然后,我们使用两个操作,即基础乘积和形状乘积,分别处理这两个具有两个可学习权重的组件,即基础核和形状核。然后以相加的方式将这两者的输出组合在一起,以形成形状感知补丁,该补丁进一步与正常卷积核卷积。与原始补丁相比,形状感知补丁能够利用形状核自适应地学习形状特征,而基础核用于平衡形状和基础对最终预测的贡献。

  此外,由于基本核和形状核在推理阶段变为常数,我们可以将它们融合到下面的卷积核中,从而形成与具有普通卷积层的网络相同的网络。所提出的ShapeConv可以很容易地插入到大多数CNN中,作为语义分割中的香草卷积的替代,而不会在推理阶段引入任何计算和内存增加。这种简单的替换将为RGB数据设计的CNN转换为更适合使用RGB-D数据的CNN。

  为了验证所提出方法的有效性,我们对三个具有挑战性的RGB-D室内语义分割基准进行了广泛的实验:NYUDv2[25](-13,-40)、SUN RGBD[26]和SID[1]。我们将ShapeConv应用于五种流行的语义分割体系结构,与基线模型相比,我们可以观察到有希望的性能改进。我们发现ShapeConv可以显著提高对象边界周围的分割精度(见图5),这证明了深度信息的有效利用2


2.相关工作

  CNN已广泛用于RGB图像的语义分割[3,4,19,18,23,33]。通常,现有的分割体系结构通常包括两个阶段:主干和分割阶段。前一阶段用于从RGB图像中提取特征,其中流行的模型是在ImageNet数据集上预先训练的ResNet[12]、ResNeXt[29]。后一阶段旨在基于提取的特征生成预测。该阶段的方法包括Upsample[19]、PPM[33]和ASPP[3,4]等。值得注意的是,这两个阶段都采用卷积层作为核心构建块。

  由于RGB语义分割在文献中得到了广泛的研究,RGB-D语义分割的一个直接解决方案是从为RGB数据设计的架构中调整开发良好的架构。然而,由于RGB和深度信息之间的非对称模态问题,实现这样的想法并非易事。为了解决这一问题,研究人员致力于两个方向:为RGB-D数据设计专用架构[6,8,13,15,17,21,28],并提出新的层来增强或替换RGB语义分割中的卷积层[5,27,30]。我们的方法属于第二类

  第一类方法建议将RGB和深度通道馈送到两个并行CNN流,其中输出特征与特定策略融合。例如,[6]提出了一种门融合方法,[8,13,21]融合了主干级的多个级别的特征。尽管如此,这些方法大多利用单独的网络来使用RGB和深度特征,但它们仍然面临两个限制:

  • 很难确定何时是进行融合的最佳阶段
  • 双流或多级方式通常会导致计算量的大幅增加

  相比之下,沿着第二方向的方法的目标是基于RGB-D数据的几何特征设计新的层,这更灵活和更节省时间。例如,Wang等人[27]通过利用像素之间的深度相似性,提出了基于手工制作的高斯函数的解冻卷积来加权像素。[30]提出了一种新的算子,称为可错2.5D卷积,用于学习沿深度轴的感受野。[5] 设计S-Conv以推断由3D空间信息引导的卷积核的采样偏移,使卷积层能够调整感受野和几何变换。ShapeConv提出了每个补丁中内容的一个新视图,并提出了一种利用学习到的权重自适应地利用它们的机制。此外,ShapeConv可以在推理阶段转换为香草卷积,从而与使用香草卷曲的模型相比,内存和计算量零增加。


3 方法

  在本节中,我们首先提供RGB-D数据的形状感知卷积层(ShapeConv)的基本公式,然后将其应用于训练和推理阶段。我们以方法体系结构结束本节。


3.1.RGB-D数据的ShapeConv

  方法直觉。给定输入补丁 P ∈ R K h × K w × C i n P∈ R^{K_h×K_w×C_{in}} PRKh×Kw×Cin K h K_h Kh K w K_w Kw是核的空间维度; C i n C_{in} Cin表示输入特征图中的信道号,
F = C o n v ( K , P ) , (1) F = Conv(K, P),\tag{1} F=Conv(K,P),(1)
其中 K ∈ R K h × K w × C i n × C o u t K∈ R^{K_h×K_w×C_{in}×C_{out}} KRKh×Kw×Cin×Cout表示卷积层中核的可学习权重(为简单起见,不包括偏差项); C o u t C_{out} Cout表示输出特征图中的通道编号。 F ∈ R C o u t F∈ R^{C_{out}} FRCout的每个元素计算为,
F c o u t = ∑ i K h × K w × C i n ( K i , c o u t × P i ) . F_{c_{out}} = \sum ^{K_h×K_w×C_{in}}_i (K_{i,cout} × P_i). Fcout=iKh×Kw×Cin(Ki,cout×Pi).

  可以很容易地看出, F F F通常随 P P P的不同值而变化。以图1中的两个贴片 P 1 P_1 P1 P 2 P_2 P2为例。来自香草卷积层的相应输出特征 F 1 F_1 F1 F 2 F_2 F2通过以下方式学习: F 1 = C o n v ( K , P 1 ), F 2 = C o n v ( K , P 2 ) F_1=Conv(K,P_1),F_2=Conv(K,P_2) F1ConvKP1),F2ConvKP2。由于 P 1 P_1 P1 P 2 P_2 P2不相同(距观测点的距离不同),因此,它们的特征通常不同,这可能导致不同的预测结果。

  然而, P 1 P_1 P1 P 2 P_2 P2,对应于图1中的红色区域,实际上属于同一类椅子。而普通的卷积层不能很好地处理这种情况。事实上,这两个斑块存在一些不变量,即形状。它指的是局部特征下的相对深度相关性,然而,现有方法意外地忽略了这一点。鉴于此,我们建议通过有效建模RGB-D语义分割的形状来填补这一空白。

  ShapeConv公式。基于上述分析,在本文中,我们提出将输入斑块分解为两个分量:描述补丁所在位置的基本分量 P B P_B PB和表示补丁是什么的形状组件 P S P_S PS。因此,我们将斑块值的均值3称为 P B P_B PB,其相对值称为 P S P_S PS

P B = m ( P ) , P S = P − m ( P ) , \begin{align*} P_B &= m(P), \\ P_S &= P − m(P), \end{align*} PBPS=m(P),=Pm(P),

其中 m ( P ) m(P) m(P) P P P(在 K h × K w K_h×K_w Kh×Kw维度上)的平均函数, P B ∈ R 1 × 1 × C i n P_B∈ R^{1×1×C_{in}} PBR1×1×Cin P S ∈ R K h × K w × C i n P_S∈ R^{K_h×K_w×C_{in}} PSRKh×Kw×Cin

  请注意,等式1中的 P S P_S PS与K直接卷积是次优的,因为来自 P B P_B PB的值有助于跨补丁的类别区分。因此,我们的ShapeConv利用了两个可学习的权重 W B ∈ R 1 W_B∈ R^1 WBR1 W S ∈ R K h × K w × K h × K h × C i n W_S∈ R^{K_h×K_w×K_h×K_h×C_{in}} WSRKh×Kw×Kh×Kh×Cin,分别消耗上述两种组分。然后以逐元素相加的方式组合输出的特征,该方式形成与原始形状相同大小的新形状感知块P。ShapeConv的公式如下:
F = S h a p e C o n v ( K , W B , W S , P ) = C o n v ( K , W B ◇ P B + W S ∗ P S ) = C o n v ( K , P B + P S ) = C o n v ( ( K , P B S ) , \begin{align*} F &= ShapeConv(K, W_B, W_S, P) \\ &= Conv(K, W_B ◇ P_B + W_S ∗ P_S)\tag{2} \\ &= Conv(K, P_B + P_S)\\ &= Conv((K, P_{BS}), \end{align*} F=ShapeConv(K,WB,WS,P)=Conv(K,WBPB+WSPS)=Conv(K,PB+PS)=Conv((K,PBS),(2)

其中◇和∗ 分别表示基础产品和形状产品操作符,其定义为,

{ P B = W B ◇ P B P B 1 , 1 , c i n = W B × P B 1 , 1 , c i n , (3) \left\{ \begin{matrix} P_B = W_B ◇ P_B\\ P_{B_{1,1,c_{in}} }= W_B × P_{B_{1,1,c_{in }}},\tag{3} \end{matrix} \right. {PB=WBPBPB1,1,cin=WB×PB1,1,cin,(3)
{ P S = W S ∗ P S P S k h , k w , c i n = ∑ i K h × K w ( W S i , k h , k w , c i n × P S i , c i n ) , (4) \left\{ \begin{matrix} P_S = W_S ∗ P_S\\ P_{S_{k_h,k_w ,c_{in}}} =\sum^{K_h×K_w}_i (W_{S_{i,k_h,k_w ,c_{in}} }× P_{S_{i,c_{in}}} ),\tag{4} \end{matrix} \right. {PS=WSPSPSkh,kw,cin=iKh×Kw(WSi,kh,kw,cin×PSi,cin),(4)

其中 c i n 、 k h 、 k w c_{in}、k_h、k_w cinkhkw分别是 c i n 、 k h 、 k w c_{in}、k_h、k_w cinkhkw维度中元素的指数。

  我们通过添加 P B P_B PB P S P_S PS以及 P B S P_{BS} PBS来重建形状感知贴片 P B S ∈ R K h × K w × C i n P_{BS}∈ R^{K_h×K_w×C_{in}} PBSRKh×Kw×Cin,这使得它能够被香草卷积层的核K平滑卷积。然而, P B S P_{BS} PBS配备了由两个附加权重学习的重要形状信息,使得卷积层能够专注于仅使用深度值失败的情况。


3.2.训练和推理中的ShapeConv

  培训阶段。第3.1节中提出的ShapeConv可以有效地利用斑块的形状信息。然而,由于等式3和4中的两乘积运算,在CNN中用ShapeConv替换香草卷积层引入了更多的计算成本。为了解决这个问题,我们建议将这两个操作从补丁转移到内核,
{ K B = W B ◇ K B K B 1 , 1 , c i n , c o u t = W B × K B 1 , 1 , c i n , , c o u t , \left\{ \begin{matrix} K_B = W_B ◇ K_B\\ K_{B_{1,1,c_{in},c_{out}} }= W_B × K_{B_{1,1,c_{in },,c_{out}}}, \end{matrix} \right. {KB=WBKBKB1,1,cin,cout=WB×KB1,1,cin,,cout,
{ K S = W S ∗ K S K S k h , k w , c i n , c o u t = ∑ i K h × K w ( W S i , k h , k w , c i n × K S i , c i n , c o u t ) , \left\{ \begin{matrix} K_S = W_S ∗ K_S\\ K_{S_{k_h,k_w ,c_{in},c_{out}}} =\sum^{K_h×K_w}_i (W_{S_{i,k_h,k_w ,c_{in}} }× K_{S_{i,c_{in},c_{out}}} ), \end{matrix} \right. {KS=WSKSKSkh,kw,cin,cout=iKh×Kw(WSi,kh,kw,cin×KSi,cin,cout),

其中 K B ∈ R 1 × 1 × C i n × C o u t K_B∈ R^{1×1×C_{in}×C_{out}} KBR1×1×Cin×Cout K S ∈ R K h × K w × C i n × C o u t K_S∈ R^{K_h×K_w×C_{in}×C_{out}} KSRKh×Kw×Cin×Cout分别表示核的基本成分和形状成分, K = K B + K S K=K_B+K_S K=KB+KS

  因此,我们将公式2的ShapeConv重新形式化为:
F = S h a p e C o n v ( K , W B , W S , P ) = C o n v ( W B ◇ m ( K ) + W S ∗ ( K − m ( K ) ) , P ) = C o n v ( W B ◇ K B + W S ∗ K S , P ) = C o n v ( K B + K S , P ) = C o n v ( K B S , P ) , \begin{align*} F &= ShapeConv(K, W_B, W_S, P) \\ &= Conv(W_B◇ m(K) + W_S ∗ (K − m(K)), P)\\ &= Conv(W_B ◇ K_B + W_S ∗ K_S, P)\tag{5} \\ &= Conv(K_B + K_S, P)\\ &= Conv(K_{BS}, P), \end{align*} F=ShapeConv(K,WB,WS,P)=Conv(WBm(K)+WS(Km(K)),P)=Conv(WBKB+WSKS,P)=Conv(KB+KS,P)=Conv(KBS,P),(5)
其中 m ( K ) m(K) mK是K上的平均函数(在 K h × K w K_h×_Kw Kh×Kw维上)。我们需要 K B S = K B + K S , K B S ∈ R K h × K w × C i n × C o u t K_{BS}=K_B+K_S,K_{BS}∈ R^{K_h×K_w×C_{in}×C_{out}} KBS=KB+KSKBSRKh×Kw×Cin×Cout

  事实上,ShpeConv的两个公式,即公式2和公式5在数学上是等价的,即,

F = S h a p e C o n v ( K , W B , W S , P ) = C o n v ( K , P B S ) = C o n v ( K B S , P ) , \begin{align*} F &= ShapeConv(K, W_B, W_S, P) \\ &= Conv(K, P_{BS})\tag{6} \\ &= Conv(K_{BS}, P), \end{align*} F=ShapeConv(K,WB,WS,P)=Conv(K,PBS)=Conv(KBS,P),(6)

F c o u t = ∑ i K h × K w × C i n ( K i , c o u t × P B S i ) = ∑ i K h × K w × C i n ( K B S i , c o u t × P i ) , \begin{align*} F_{c_{out}} =\sum ^{ K_h×K_w×C_{in}}_i (K_{i,c_{out}} × P_{BS_i}) \tag{7}\\ = \sum ^{K_h×K_w×C_{in}}_i (K_{BS_{i,cout}} × P_i), \end{align*} Fcout=iKh×Kw×Cin(Ki,cout×PBSi)=iKh×Kw×Cin(KBSi,cout×Pi),(7)
  有关详细证明,请参阅附录。这样,我们在图2(b)和(c)所示的实现中利用了等式5中的ShapeConv。

图2.斑块P内香草卷积和ShapeConv的比较。在该图中,Kh=Kw=2,Cin=3,Cout=2,“+”表示元素相加。(a) V anilla卷积与核K;(b) 将WB和WS折叠成KBS的ShapeConv;(c) 从K、WB和WS计算KBS

  推理阶段。在推断过程中,由于两个附加权重(即 W B W_B WB W S W_S WS)变为常数,我们可以将它们融合为 K B S K_{BS} KBS,如图2(c)所示,其中 K B S = W B ◇ K B + W S ∗ K S K_{BS}=W_B◇K_B+W_S∗ K_S KBS=WBKB+WSKS K B S K_{BS} KBS与等式1中的K共享相同的张量大小,因此,我们的ShapeConv实际上与图2(a)中的香草卷积层相同。换句话说,当用ShapeConv替换香草卷积时,将引入零额外推理时间。


3.3.ShapeConv增强型网络架构

不同于为RGB-D分割设计专门的架构[21,22,17],所提出的ShapeConv是一种更通用的方法,可以很容易地插入到大多数CNN中,作为语义分割中的香草卷积的替代,然后对其进行转换以适应RGB-D数据。

图3.整体语义分割网络架构。在该图中,黄色和橙色立方体表示RGB和D输入;“C”表示信道连接;绿色和蓝色方框分别表示由香草卷积层和ShapeConv层组成的架构。

  图3描述了整个方法体系结构的示例。为了在语义分割中利用高级骨干,我们首先需要通过RGB和D信息的连接将RGB图像的输入特征转换为RGB-D数据。实际上,D可以是深度值[11,20]或HHA4图像[10,19,16,6]。然后,我们在主干和分段阶段用ShapeConv替换香草卷积层。值得注意的是, W B W_B WB被初始化为1, W S W_S WS可以被视为 C i n C_{in} Cin平方 ( K h × K w ) × ( K h × K w ) (K_h×K_w)×(K_h ×K_w) Kh×Kw×Kh×Kw矩阵,它们被初始化为单位矩阵。通过这种方式,ShapeConv相当于训练开始时的香草卷积,因为 K B S = K K_{BS}=K KBS=K。这种初始化方法提供了两个优点:

  • 使ShapeConv enhanced网络不干扰RGB数据,即RGB特征以与之前相同的方式处理
  • 它有助于ShapeConv重用预训练模型中的参数。

  因此,使用这种方法,RGB语义分割体系结构的未来进展可以很容易地转移到使用RGB-D数据上,大大减少了原本用于设计RGB-D语义分割专用网络的工作量。我们在第4.2节中展示了使用几种流行的架构[3,4,18,23,33]构建具有这种风格的RGB-D分割网络的结果。


4. 试验

数据集和指标。在现有的RGB-D分割问题中,室内语义分割相当具有挑战性,因为对象通常很复杂且具有严重的遮挡[5]。因此,为了验证所提出方法的有效性,我们在三个室内RGB-D基准上进行了实验:NYU-DepthV2(NYUDv2-13和-40)[25]、SUN-RGBD[26]和斯坦福室内数据集(SID)[1]。NYUDv2包含1449个RGB-D场景图像,其中795个图像被分割用于训练,654个图像用于测试。我们为此数据集采用了两种流行的设置,即13类[25]和40类[9],其中所有像素分别标记为13类和40类。SUN-RGBD由10355张RGB-D室内图像组成,每个像素标签有37个类别。我们遵循[26]中广泛使用的设置,将数据集拆分为5285张图像的训练集和5050张图像的测试集。SID包含70496个RGB-D图像和13个对象类别。特别是,区域1、2、3、4和6用于培训,区域5用于测试[27]。

  我们使用与FCN[19]相同的评估协议和度量报告了结果,即像素精度(Pixel Acc.)、平均精度(Mean Acc.)、联合平均区域交叉(Mean IoU.)和联合频率加权交叉(f.w.IoU)。

比较方案。我们采用了几种具有不同主干的流行架构作为基线方法,以证明ShapeConv的有效性和泛化能力。对于所有的基线方法,我们只使用ShapeConv替换了香草卷积层,没有对其他设置进行任何更改。这保证了所获得的性能改进是由于ShapeConv的应用,而不是其他因素。

实施细节。我们使用ResNet[12]和ResNeXt[29]在主干阶段使用ImageNet[24]上的预训练模型初始化。如果没有特别说明,基线和我们的输入都是RGB和HHA图像的级联。我们在推理过程中采用了单尺度和多尺度测试策略。对于后一种,利用了左右翻转图像和五个尺度:[0.5、0.75、1.0、1.25、1.5、1.75]。本节表格中的★表示多尺度策略。请注意,在我们的实验中没有使用像CRF[2]这样的后处理技巧。


4.1.不同数据集的实验

表1.NYUDv2-13数据集与基线的性能比较。Deeplabv3+是采用的架构。

表2.NYUDv2-40数据集与基线的性能比较。Deeplabv3+是采用的架构。

  NYUDv2数据集。我们对此数据集采用了两种流行的设置,即13类[25]和40类[9],并在表1表2中分别显示了基线和我们的方法在NYUDv2-13和NYUDv2-40上的不同主干的结果。可以看出,在所有设置下,使用ShapeConv的架构都以很大的裕度优于基线。

表3.在NYUDv2-13数据集上与其他方法的性能比较。

表4.NYUDv2-40数据集上与其他方法的性能比较。
MethodPixeAcc.(%)lMean Acc.(%)Mean IoU.(%)f.w. IoU.(%)
FCN [19]65.446.134.049.5
LSD-GF [6]71.960.745.959.3
D-CNN [27]-61.148.4-
MMAF-Net [8]72.259.244.8-
ACNet [13]--48.3-
Ours75.862.850.262.6
CFN [17]★--47.7-
3DGNN [22]★-55.743.1-
RDF [21]★76.062.850.1-
M2.5D [30]★76.9-50.9-
SGNet [5]★76.863.351.1-
OursF76.463.551.363.0

  我们还将ShapeConv的性能与表3表4中的几种最近开发的方法进行了比较。如表3所示,ShapeConf在NYUDv2-13上的所有四个指标中表现最佳。与最近提出的方法[32]相比,我们的方法在平均IOU(最常用的语义分割指标)上提高了约6.3%。此外,我们的方法还在表4中的NYUDv2-40上实现了具有竞争力的性能。

表5.SUN-RGBD数据集与基线的性能比较。本表中采用的架构是具有不同主干的deeplabv3+。

表6.SUN-RGBD数据集的性能比较。
MethodPixeAcc.(%)lMean Acc.(%)Mean IoU.(%)f.w. IoU.(%)
3DGNN-101 [22]-55.744.1-
D-CNN-50 [27]-53.542.0-
MMAF-Net-152 [8]81.058.247.0-
SGNet-101 [5]81.059.847.5-
Ours-10182.058.547.671.2
CFN-101 [17]★--48.1-
3DGNN-101 [22]★-57.045.9-
RDF-152 [21]★81.560.147.7-
SGNet-101 [5]★82.060.748.6-
Ours-101★82.259.248.671.3

SUN-RGBD数据集。基线与我们的SUN-RGBD数据集之间的比较结果如表5所示。可以观察到,我们的ShapeConv在所有设置下也产生了积极的效果。我们还将我们的性能与表6中的几种最近开发的方法进行了比较。值得注意的是,表5中以ResNet-50为主干的ShapeConv增强网络的性能已经取得了比表6中几种方法更好的结果,例如分别以ResNet-101和-152为主干的3DGNN-101[22]和RDF-152[21]。

表7.SID数据集的性能比较。本表中采用的基线和我们的架构是具有ResNet-101主干的deeplabv3+,“+”表示相对于基线方法的增量。
MethodPixeAcc.(%)lMean Acc.(%)Mean IoU.(%)f.w. IoU.(%)
D-CNN [27]65.455.539.549.9
MMAF-Net-152 [8]76.562.352.9-
Baseline-10178.763.254.665.6
Ours-10182.770.060.671.2
+4.06.86.05.6

SID数据集。请注意,SID数据集比其他两个数据集大得多,为评估RGB-D语义分割模型能力提供了更好的测试平台。表7报告了我们的基线和最新方法之间的SID数据集结果。我们可以观察到,我们的ShapeConv以很大的优势超过了这些方法。请注意,尽管我们使用了强大的基线(ResNet-101主干),以1.7%的平均IoU超过了MMAF-Net-152(ResNet-152主干),但我们的ShapeConv仍然可以实现6%的平均IuU改进。这突出了我们方法的有效性。


4.2.不同架构的实验

  我们提出的ShapeConv是RGBD语义分割的通用层,可以很容易地插入到大多数CNN中,作为语义分割中香草卷积的替代。为了验证其泛化特性,我们还评估了我们的方法在NYUDv2-40数据集上具有不同主干(ResNet-50[12]、ResNet-101[12])的几种代表性语义分割架构中的有效性:Deeplabv3+[4]、Deeplabv3[3]、UNet[23]、PSPNet[33]和FPN[18],并在表8中报告了性能。我们可以看到,ShapeConv在所有设置下都带来了显著的性能改进,证明了我们方法的泛化能力。

表8.NYUDv2-40数据集上不同基线方法的性能比较。


4.3.可视化

图4.NYUDv2数据集的可视化结果。输入列从上到下表示RGB、Depth、HHA图像;GT、Baseline和Ours中的黑色区域表示被忽略的类别。大写和小写分别来自NYUDv2-40和NYUDv2-13。

  图4说明了NYUDv2-13和-40的定性结果,更多结果可以在Supp中找到。如图所示,ShapeConv可以很好地利用深度信息,尤其是细节信息来提取对象特征。例如,图4(a)顶部示例中的椅子和桌子区域的颜色逐渐变化,因此很难预测基线方法的准确分割边界。与传统的卷积层相比,ShapeConv学习的形状特征使得根据几何提示进行精确切割。对于其他两种情况,即图4(a)底部示例中的椅子和图4(b)顶部示例中的桌子,与基线相比,ShapeConv还可以显著改善边缘区域的分割结果。值得注意的是,对于图4(b)底部示例中的多个书架,ShapeConv实现了更一致的预测。这是因为我们的ShapeConv产生了在相同类中平滑邻域的积极趋势。

图5.对象边界周围的分割精度。在这个图中,左边是“trimap”度量的可视化;右边是不同宽度的三分图中错误分类像素的百分比。

  为了验证我们的方法对深度信息建模的有效性,我们采用了Kohli等人提出的比较策略[14]。具体来说,我们计算了地面真实物体边界周围窄带(“trimap”)内误分类像素的相对数量。如图5所示,我们的方法在所有三图宽度上都优于基线。这进一步证明了我们的方法对边缘区域的分割效果,其中形状信息很重要。


4.4.消融研究

表9.NYUDv2-40上ShapeConv中WB和WS的性能比较。该表中采用的架构为deeplabv3+,ResNet-101为主干
W B W_B WB W S W_S WSPixeAcc.(%)lMean Acc.(%)Mean IoU.(%)f.w. IoU.(%)
73.458.945.959.7
73.959.447.060.1
74.159.246.360.1
74.559.547.460.8

  我们进行了烧蚀实验,以验证方程5中引入的两个权重的必要性。如表9所示,当移除 W B W_B WB W S W_S WS或两者时,模型性能会下降。这证明了基础核和形状核对于最终的性能改进都是必不可少的,并且将这两者结合起来可以获得最佳结果。

表10.NYUDv2-40数据集上拟议ShapeConv的消融研究。RGB、Detph和HHA表示由RGB图像、深度图像和HHA图像组成的输入。
SettingPixeAcc.(%)lMean Acc.(%)Mean IoU.(%)f.w. IoU.(%)
a.RGB71.856.943.957.3
b.RGB+Depth72.858.944.957.7
c.RGB+Depth★73.959.146.860.0
d.RGB+HHA73.458.945.959.7
e.RGB+HHA★74.460.247.660.7
f.RGB+Depth+ShapeConv73.958.246.260.0
g.RGB+Depth+ShapeConv★74.859.247.560.8
h.RGB+HHA+ShapeConv74.559.547.460.8
i.RGB+HHA+ShapeConv★75.560.749.061.7

  为了对ShapeConv进行更深入的分析,我们分别以deeplabv3+和ResNet-101为基线和主干,对NYUDv2-40数据集进行了详细的消融研究。更多数据集的结果可以在补充资料中找到。表10说明了结果,该表的主要观察结果如下:
  1)HHA的输入特征优于基线和我们的深度图像;
  2) 用ShapeConv替换香草卷积可以显著提高深度和HHA的性能;
  3) 测试阶段的多尺度设置带来更多性能增益;
  4) 用HHA和多尺度测试级联ShapeConv可以获得最佳结果。


5. 结论

  在本文中,我们提出了一个ShapeConv层,以有效地利用深度信息进行RGB-D语义分割。特别地,首先将输入块分解为两个分量,即形状和基底,然后在应用卷积之前用两个相应的可学习权重来修饰这两个分量。我们已经对几个具有挑战性的室内RGB-D语义分割基准进行了广泛的实验,可以观察到有希望的实验结果。此外,值得注意的是,我们的ShapeConv在推理过程中与普通卷积相比,没有引入额外的计算或内存,但具有优异的性能。

  事实上,形状分量是局部几何中固有的,并且与图像中的语义高度相关。在未来,我们计划将应用范围扩展到其他几何实体,如点云,由于额外的自由度,形状基分解更具挑战性。


鸣谢

  这项工作得到了国家重点研发计划(2017YFB1002603)、国家科学基金面上项目(61772317、61772318和62072284)、山东大学“齐鲁”青年人才计划和阿里巴巴集团研究实习生计划的支持


References

[1] Iro Armeni, Sasha Sax, Amir R Zamir, and Silvio Savarese. Joint 2d-3d-semantic data for indoor scene understanding. arXiv preprint arXiv:1702.01105,2017.
[2] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Y uille. Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.IEEE transactions on pattern analysis and machine intelligence, 40(4):834–848, 2017.
[3] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587, 2017.
[4] Liang-Chieh Chen, Y ukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the European Conference on Computer Vision, pages 801–818, 2018.
[5] Lin-Zhuo Chen, Zheng Lin, Ziqin Wang, Y ong-Liang Y ang, and Ming-Ming Cheng. Spatial information guided convolution for real-time rgbd semantic segmentation. IEEE Transactions on Image Processing,30:2313–2324, 2021.
[6] Y anhua Cheng, Rui Cai, Zhiwei Li, Xin Zhao, and Kaiqi Huang. Locality-sensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3029–3037, 2017.
[7] David Eigen and Rob Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE International Conference on Computer Vision, pages 2650–2658, 2015.
[8] Fahimeh Fooladgar and Shohreh Kasaei. Multimodal attention-based fusion model for semantic segmentation of rgb-depth images. arXiv preprint arXiv:1912.11691, 2019.
[9] Saurabh Gupta, Pablo Arbelaez, and Jitendra Malik. Perceptual organization and recognition of indoor scenes from rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 564–571, 2013.
[10] Saurabh Gupta, Ross Girshick, Pablo Arbeláez, and Jitendra Malik. Learning rich features from rgb-d images for object detection and segmentation. In Proceedings of the European Conference on Computer Vision, pages 345–360. Springer, 2014.
[11] Caner Hazirbas, Lingni Ma, Csaba Domokos, and Daniel Cremers. Fusenet: Incorporating depth into semantic segmentation via fusion-based cnn architecture. In Asian Conference on Computer Vision, pages 213–228. Springer, 2016.
[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.
[13] Xinxin Hu, Kailun Y ang, Lei Fei, and Kaiwei Wang.Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation. In2019 IEEE International Conference on Image Processing (ICIP), pages 1440–1444. IEEE, 2019.
[14] Pushmeet Kohli, Philip HS Torr, et al. Robust higher order potentials for enforcing label consistency. International Journal of Computer Vision, 82(3):302–324,2009.
[15] Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao, and Y ue Gao. Attention-based multi-modal fusion network for semantic scene completion. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 11402–11409, 2020.
[16] Zhen Li, Y ukang Gan, Xiaodan Liang, Yizhou Y u, Hui Cheng, and Liang Lin. Lstm-cf: Unifying context modeling and fusion with lstms for rgb-d scene labeling. In Proceedings of the European Conference on Computer Vision, pages 541–557. Springer, 2016.
[17] Di Lin, Guangyong Chen, Daniel Cohen-Or, PhengAnn Heng, and Hui Huang. Cascaded feature network for semantic segmentation of rgb-d images. In Proceedings of the IEEE International Conference on Computer Vision, pages 1311–1319, 2017.
[18] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2117–2125, 2017.
[19] Jonathan Long, Evan Shelhamer, and Trevor Darrell.Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3431–3440, 2015.
[20] Lingni Ma, Jörg Stückler, Christian Kerl, and Daniel Cremers. Multi-view deep learning for consistent semantic mapping with rgb-d cameras. In 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 598–605. IEEE,2017.
[21] Seong-Jin Park, Ki-Sang Hong, and Seungyong Lee.Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision,pages 4980–4989, 2017.
[22] Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, and Raquel Urtasun. 3d graph neural networks for rgbd semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision, pages 5199–5208, 2017.
[23] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical Image Computing and Computer-assisted Intervention, pages 234–241. Springer, 2015.
[24] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang,Andrej Karpathy, Aditya Khosla, Michael Bernstein,et al. ImageNet large scale visual recognition challenge. International Journal of Computer Vision,115(3):211–252, 2015.
[25] Nathan Silberman, Derek Hoiem, Pushmeet Kohli,and Rob Fergus. Indoor segmentation and support inference from rgbd images. In Proceedings of the European Conference on Computer Vision, pages 746–760.Springer, 2012.
[26] Shuran Song, Samuel P Lichtenberg, and Jianxiong Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 567–576, 2015.
[27] Weiyue Wang and Ulrich Neumann. Depth-aware cnn for rgb-d segmentation. In Proceedings of the European Conference on Computer Vision, pages 135–150,2018.
[28] Yikai Wang, Wenbing Huang, Fuchun Sun, Tingyang Xu, Y u Rong, and Junzhou Huang. Deep multimodal fusion by channel exchanging. Advances in Neural Information Processing Systems, 33, 2020.
[29] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu,and Kaiming He. Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1492–1500, 2017.
[30] Y ajie Xing, Jingbo Wang, and Gang Zeng. Malleable 2.5 d convolution: Learning receptive fields along the depth-axis for rgb-d scene parsing. arXiv preprint arXiv:2007.09365, 2020.
[31] Zhengyou Zhang. Microsoft kinect sensor and its effect. IEEE multimedia, 19(2):4–10, 2012.
[32] Cheng Zhao, Li Sun, Pulak Purkait, Tom Duckett,and Rustam Stolkin. Dense rgb-d semantic mapping with pixel-voxel neural network. Sensors, 18(9):3099,2018.
[33] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiao-gang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2881–2890, 2017.


  1. 卷积层的输入特征的操作单元,其空间大小与卷积核相同。 ↩︎

  2. 我们的代码通过https://github.com/hanchaoleng/ShapeConv ↩︎

  3. 由于深度值是从固定的观察点获得的,我们注意到由于视角限制,旋转变换无法解决。因此,我们在本文中更多地关注平移变换。 ↩︎

  4. 水平视差、离地高度和垂直轴的法线角度。 ↩︎

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值