基于深度敏感空间金字塔池化的 RGBD 语义分割

论文题目:基于深度敏感空间金字塔池化的RGBD语义分割

摘要

标准的2D卷积核的RGBD语义分割模型多是将深度图作为一个单独的通道,这种特性无法充分挖掘深度信息带来的几何结构信息。 针对这一缺陷,提出了构建深度敏感卷积核和池化层来实现对深度信息的充分挖掘; 并使用深度敏感空间金字塔模块对多尺度信息提取,从而实现对不同尺度物体分割的效果。 采用的数据集为NYU v2 和 SUN RGB-D。

正文

之前基于传统卷积神经网络的RGBD语义分割对深度信息的利用方式大致可以分为两类:第一类为将深度信息编码为HHA 三个通道的灰度图, 然后将HAA三个通道的灰度图与RGB三个通道的图像传送到两个独立的深度卷积神经网络中处理,在输出端对两个网络的输出结果进行融合。 这种方法使得网络参数量增加了一倍,而且不能充分挖掘深度信息带来的几何结构信息 。第二类为使用3D神经网络进行几何信息的挖掘,有学者使用基于点云的图神经网络尝试从深度信息中挖掘几何信息辅助语义分割,其首先基于深度信息得到3D点云,然后利用3D点云基于 K 近邻的图(graph),将此图嵌入到 2D 的卷积神经网络中去,即将卷积层的特征输出到此图中去,利用基于时间的反向传播算法(BPTT)对整个网络进行更新,从而形成一个端到端的 3D 图神经网络。
实验表明此方法取得了很不错的实验效果[2],以上的这两种 3D神经网络虽然对几何信息进行了有效挖掘,但是其运算量和显存使用量都很大。

一种全新的对几何信息进行充分挖掘的方式: 利用局部像素间深度相似性对卷积操作和池化操作进行加权处理, 想法是认为:相同语义标签应该有着相似的深度值。 提出了深度敏感卷积神经网络,这个网络包括深度敏感卷积模块和深度敏感池化模块, 在这种网络可以对大物体分割效果好,对小目标提升相对比较少。 基于这种思想提出了基于空间金字塔池化的思想,使用空洞空间金字塔池化模块对多尺度特征进行捕捉, 这种方式将原始图像进行多尺度的变换之后输入到几个独立的深度网络进行处理并在输出端进行融合,减少了计算量。 在这种网络的基础上再次提出了空洞空间金字塔池化模块(DAPP)实现对RGBD图像进行多尺度信息捕捉。

贡献

1) 引入深度敏感卷积网络对 RGBD 图像中的几何信息进行充分挖掘,改善整体语义分
割的效果。
2) 提出深度敏感空间金字塔池化模块(depth-aware spatial pyramid pooling,DSPP) 对 RGBD 图像中的多尺度信息进行捕捉,改善各尺度物体的语义分割效果。

基于深度敏感空间金字塔池化的 RGBD 语义分割

这种网络可以将RBGD图像中的几何信息无缝的融入到二维卷积中去。

1、深度敏感卷积神经网络

深度敏感卷积网络将语义标签相同的像素点其对应的深度应该 相近,则与图像局部图像相似的像素点相近的像素点对于在此局部位置卷积的输出贡献比较大。此做法相当于使用深度相似性对卷积核进行了增强,对标准卷积核了空间变换,与空洞卷积(atrous convolution)和可变形卷积(deformable convolution)[10]有相似的思想。

深度敏感卷积神经网络的具体实现是利用深度相似性矩阵对标准卷积核进行加权处理。深度 敏感卷积神经网络包括两个模块:深度敏感卷积和深度敏感池化,其中深度敏感卷积使用深度相似性矩阵对原标准卷积核进行加权,而深度敏感平均池化模块使用深度相似性矩阵对特征图进行对应位置加权 后在进行标准的池化操作。 具体操作如下图所示:

在这里插入图片描述
深度敏感卷积

标准的卷积操作公式:

在这里插入图片描述
深度敏感卷积操作公式:

在这里插入图片描述
其中@为常数,D(pi)为像素点Pi上的深度值, 从公式可以看出深度值相似越小,则对应 的 相似度函数输出越大。

式(2)定义的深度敏感卷积在 和 的梯度更新过程中仅比标准的卷积操作多了使用深度相似度函数 进行乘法加权而已,并没有额外带来需要训练的网络参数,计算很高效,无缝地将深度信息嵌入待了卷积网络的梯度传播中去。

2、深度敏感平均池化

标准的平均池化公式:

在这里插入图片描述
其中X为特征图,y为输出特征图,R是以点P0为中心的网格区域,有公式可以看出平均池化操作平等的对待特征图上的每一个点,使得输出比较平滑, 这对于保持边缘特征位置精度是有伤害的,而深度敏感平均池化操作强制与中心像素深度相似性大的像素点对于特征图的输出的贡献更大。

在这里插入图片描述
3、深度敏感空间金字塔池化

基于深度敏感空间金字塔池化模块的多尺度特征融合示意图如图 2 所示,其中使用金色虚线框框起来的模块就是深度敏感空间金字塔池化模块(DSPP),深度敏感空间金字塔池化模块使用的是四个不同采样率的深度敏感空洞卷积核(dconv)对第五个池化层(pool5)输出的特征图进行不同稀疏程度的采样,这样以捕捉不多尺度目标的特征与上下文信息,借鉴文献[2]中的思想,对第七个卷积层(conv7)生成的 C 个通道(channel)的特征图进行全局池化操作(global pooling,GP),全局池化操作可以生成 C 维的向量,将此 C 维向量的每一个元素加到对应的特征图的每一个位置上,从而形成一个含有 2C 个通道(channel)的 3D 张量(3D tensor),随后利用 1×1 的卷积核进行降维,四个多尺度通道都进行上述相同的处理,然后采取求和融合的方式对四个多尺度通道的结果进行融合,最后利用双线性插值上采样到和原图同样尺寸的语义标签图。

在这里插入图片描述
基于深度敏感空间金字塔池化模块优化的卷积网络的架构示意图如图所示,整个网络的输入是 RGB 图像和深度图,经过五个卷积组的输出后,接入基于深度敏感空间金字塔池化的多尺度特征融合模块(DSPP-Fusion),最后将输出的特征图经过双线性插值到和原输入一样的尺寸,即得到语义分割预测特征图(predict label)。

在这里插入图片描述

实验结果与分析

本文提出的方法在主流的 RGBD 图像语义分割数据集—NYU v2和 SUN RGB-D 数据集上都取得了很不错的效果。

这一块见论文详情!!!!!!

结论

本文针对原始的深度敏感卷积神经网络(DACNN)在复杂场景对上下文信息的捕获能力的不足问题,提出引入深度敏感的空间金字塔池化模块DSPP对原始算法进行改进。

经改进的基于深度敏感空间金字塔池化的卷积神经网络模(DACNN-DSPP)融合了DACNN 在捕获几何信息能力上的优点DSPP 在捕获上下文信息的优点,且基于深度敏感空间金字塔池化的卷积神经网络模型并没有带来太多的训练参数,模型的复杂度和原始模型在同一量级。DACNN-DSPP 算法在两个一小一大 RGBD 语义分割数据集(NYU v2和SUNRGB-D)上的表现均优于 DACNN 模型,从而验证了本文算法的有效性,具有更强的语义推断能力。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪子私房菜

给小强一点爱心呗

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值