（SCNN）用于交通场景理解的空间CNN

最新推荐文章于 2024-05-28 11:20:16 发布

Bruce Jue

最新推荐文章于 2024-05-28 11:20:16 发布

阅读量2.4k

点赞数 19

分类专栏：笔记文章标签：神经网络计算机视觉

本文链接：https://blog.csdn.net/hyd_ashely/article/details/109955719

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

SCNN

Abstract
介绍
空间卷积神经网络
测试
评估

论文地址：
Spatial As Deep: Spatial CNN for Traffic Scene Understanding.

Abstract

现今的CNN模型通常是由卷积块堆叠构建，虽然CNN有强大的特征提取能力，但现存CNN架构没有足够充分探索图像行和列上的空间关系能力。这些关系对于学习强先验形状的对象很重要，尤其是外观(图像像素)连贯性很弱。例如交通线，车道经常会被遮挡，或者压根就没在路上画车道线。

本文提出了Spatial CNN(CNN),它将传统的卷积层接层(layer-by-layer)的连接形式的转为feature map中片连片卷积(slice-by-slice)的形式，使得图中像素行和列之间能够传递信息。这特别适用于检测长距离连续形状的目标或大型目标，有着极强的空间关系但是外观线索较差的目标，例如交通线，电线杆和墙。

scnn与cnn的明显对比如下：
在这里插入图片描述
图片从左到右依次为：输入特征图;CNN输出图；SCNN输出图。

介绍

自动驾驶中最具挑战的任务之一是交通场景理解，包括计算机视觉任务下的车道检测和语义分割。车道检测帮助指导车辆，语义分割提供更多关于周围环境目标的细节位置。但在实际情况下，因为有许多恶劣条件，这些任务可能非常具有挑战性。对于交通场景理解的另一个挑战是，在许多情况下需要在有强结构先验知识下处理外形线索不多的目标，例如交通线，杆状物等，这些具有长距离连续的形状，常常有很大部分被遮挡。

得益于强大的学习表示能力，CNN将视觉理解推向了一个新的高度。但是这依然不能很好地处理外形线索不多的有强结构先验的目标，而人类可以推断它们的位置并填充遮挡的部分。

为了解决这个问题，论文提出了SCNN，将深度卷积神经网络推广到丰富空间层次。

传统的CNN，任意层接收上层的数据作输入，再作卷积并加激活传给下一层，这个过程是顺序执行的。与之类似的是，SCNN将feature map的行或列也看成layer，也使用卷积加非线性激活，从而实现空间上的深度神经网络。这使得空间信息能够在同层的神经元上传播，增强空间信息进而对于识别结构化对象特别有效。

空间卷积神经网络

车道线数据集

本文提出了一个关于交通车道检测的大规模数据集。以前的车道检测数据集(KITTI,CamVid)要不就是太简单，要不就是数据太小。最近的(Caltech,TuSimple)数据集是在交通受限状态下建立的，这样的数据车流量少且路标较为清晰。这些数据集没有包括一些车道线模糊，条件恶劣的情况，而这些情况人类可以推断出来，且这具有很高的实用价值。

论文提出的数据集是由六辆车在北京不同时间录制的，超过55个小时共收集了133,235 张图片，这超过TuSimple 数据集20倍了。论文分成88880张作为训练集, 9675作为验证集，34680做测试集。图像的大小为 1640 × 590 1640×590 1640×590。下图是示例和简介：

在这里插入图片描述

数据集内包括城市、农村和高速公路等场景，北京作为世界上最大和最拥挤的城市之一，对应的车道检测数据提供了很多具有挑战性的交通场景。论文将测试集分为正常和8个具有挑战性的类别，这对应上图 (a)的9个示例情况。图(b)显示的是挑战性的场景站数据集的比例(共72.3%)。

对于每一张图片，使用三条线注释车道，如前面所述，许多情况下车道是被遮挡的或看不见的。而这在实际情况下是很重要的，车道检测算法需要能够在这种情况下工作。对此，标注工作根据上下文也做了标注，如图(2)(4)所示。对于图(1)的情况我们不对障碍的另一边做标注，将精力集中于最受关注的部分。

空间CNN

传统的关于空间关系的建模方法是基于概率图模型的，例如马尔科夫随机场(MRF)或条件随机场(CRF)。最近有工作将概率图与CNN相结合，如图 (a)所示：

在这里插入图片描述
CRF可化为平均场，算法可以用神经网络来实现，具体来说，过程分为：

标准化：CNN的输出作为一元势函数，并通过Softmax操作标准化
信息传递：可通过大内核的逐通道卷积实现(对于DenseCRF,内核大小将覆盖整张图片，内核权重取决于图片)
兼容性转换：使用 1 × 1 1×1 1×1的卷积实现
添加一元势：整个过程迭代N次得到最终输出

可以看到传统方法在传递信息时，每个像素点接受来自全图其他像素的信息，这在计算上是非常昂贵的，难以应用于实时系统。且对于MRF的大卷积核权重很难学。这些方法是应用在CNN的输出上的，论文认为CNN的隐藏层，包含了丰富的空间关系，可更好的用于处理空间关系。

论文提出了Spatial CNN，这里的Spatial不是指Spatial Convolution，而是CNN通过特征的设计架构传递空间信息。SCNN更有效的学习空间关系，能平滑的找出连续的有强先验的结构目标。SCNN的整体架构如下：

在这里插入图片描述图中SCNN的下表：D、U、R、L分别表示向下、向上、向右、向左。

以SCNN_D为例：

考虑到SCNN应用在三维张量 C × H × W 上， C , H , W 分别代表通道数，长和宽。为了实现空间信息传递，将张量切分成 H片(slice)，先将第一片送到尺寸为 C × w的卷积层( w为卷积核的宽度)。传统的CNN是将这层的输出传递给下一层，而这里是将这片输出相加到下一片作为新的一片。接着下一片继续应用卷积(这里卷积核共享)，直到处理完所有片。
在这里插入图片描述
具体来讲，假设我们有一个三维的张量 K，其中 K _i,j,k记为最后一片中通道 i的元素和当前片中通道 j j j的元素之间的权重，这两个元素之间偏移为 k 列。同样的将 X_i,j,k记录为张量X的元素，其中 i , j , k分别指代通道，行，列.
则SCNN的前向计算为：
在这里插入图片描述其中 f是非线性激活函数 ReLU。X加 ′ 代表示更新后的值，注意所有的片共享一组卷积核，SCNN是一种RNN。