【谷歌翻译】Multi-Class Lane Semantic Segmentation using Efficient Convolutional Networks

使用高效卷积网络的多类车道语义分割

纯粹的谷歌翻译,没有做任何语句流畅性的改动,也没有任何分析

摘要:

车道检测在自动驾驶汽车中起着重要作用。 多项研究利用语义分割网络来提取鲁棒的车道特征,但很少有人能够区分不同类型的车道。 在本文中,我们关注于多类车道语义分割问题。 基于观察到车道是道路场景图像中的小尺寸和窄宽度的对象,我们提出了两种技术:特征尺寸选择(FSS)和递减膨胀块(DD块)。 FSS允许网络使用适当的特征尺寸提取细车道特征。 为了获取细粒度的空间信息,DD块由一系列具有递减的扩张率的扩张卷积组成。 实验结果表明,所提出的技术与基线系统相比,在精度上有明显提高,同时实现了相同或更快的推理速度,并且可以在高分辨率图像上实时运行。

INTRODUCTION

车道检测是了解道路场景以实现自动驾驶的一项至关重要的技术。 通常,车道检测算法包括三个步骤:车道特征提取,特征段分组和车道模型拟合[5]。 在这些步骤中,第一步是最关键和最具挑战性的步骤,因此我们在这项工作中将重点放在此步骤上。 传统的车道特征提取方法需要精心设计的图像处理程序来获取车道特征[1]。 例如,基于梯度的方法计算梯度以捕获车道边界[13,14,19]。 研究人员进一步结合了多种信息来源,包括强度,颜色和边缘[17],以增强检测能力。 车道形状模型建立了检测车道的假设标准,例如双曲线对[16]和B蛇[18]。 但是,这些常规算法的鲁棒性不足以抵抗环境变化的影响,例如噪声,照度变化和天气状况。

近年来,深度卷积神经网络(CNN)在计算机视觉领域取得了突破[7,10,12]。一些研究人员采用语义分割网络进行车道特征提取。这些基于CNN的系统具有更高的鲁棒性,并且对环境变化不那么敏感。然而,就我们所知,目前很少有研究专注于一项具有挑战性的任务,即“多类车道语义分割”(见图1)。例如,LMD [6]设计了基于SegNet [2]的网络体系结构来分割通道。 LMD以实时推理速度实现了高性能,但它不能区分不同类型的通道。 Zang等。 [21]使用CNN来找到两类车道像素:黄线和白线,但是他们的方法只能处理非常小的尺寸的32×32图像。识别不同类型的车道,例如黄线,红线,双线,实线和虚线,对于自动驾驶车辆至关重要,因为它应该了解这些道路标记的含义。尽管如此,著名的DeepLabv3 + [4]是性能最高的细分模型之一,而ICNet [22]则致力于自动驾驶应用,但并未关注细分多类车道。根据我们的经验,如果没有适当的修改,这些主流架构即使功能强大,也可能不适合承担多类车道语义分割的任务。

在本文中,我们提出了两种技术,即特征尺寸选择(FSS)和递减扩张块(DD块),以修改现有的语义分割网络。这些想法来自我们的观察,即在典型的道路场景图像中,车道标记是小尺寸和窄宽度的对象。 EDANet [11]在准确性和推理速度之间具有良好的平衡,并且它是用于自动驾驶的合适系统。结果,我们选择它作为基准体系结构并在其上应用我们的技术(见图1)。

EDANet从两个下采样模块开始以提取特征。但是,下采样过程往往会丢失详细的空间信息,这特别不利于小物体。一些细路甚至可能被完全丢弃。另一方面,如果我们取消下采样操作,则网络的接收范围将缩小。因此,我们提取了不同特征图大小的特征,以调查对通道分割的下采样操作的最佳使用。我们将此策略称为“特征尺寸选择(FSS)”。接下来,类似于许多其他网络,EDANet采用增量卷积速率的卷积卷积来逐渐扩大接收场。尽管如此,由于卷积核的稀疏性,膨胀的卷积会跳过一些空间像素样本,并且无法聚合小对象的完整而详细的信息。滨口等。 [8]开发了LFE模块,该模块由具有递减膨胀率的几个卷积层组成,以提取局部特征。我们采用LFE模块的基本概念,但使用一个EDA模块作为一个单元而不是一个卷积层。我们将具有递减膨胀率的堆叠EDA模块命名为递减膨胀块(DD Block)。

总而言之,这项工作探讨了一项具有挑战性的任务,即多类车道语义分割。我们将当前的语义分割系统扩展为能够区分各种类型的车道标记。我们在由工业技术研究院(ITRI)创建的ITRI数据集上评估我们的系统。与基线网络相比,所提出的两种技术明显提高了准确性,并实现了相同或更高的推理速度。它们可以在高分辨率图像上实时运行,因此适用于自动驾驶应用。

METHOD

车道是道路场景图像中相对较小且较细的对象,因此我们需要开发针对小对象语义分割的新策略。 在本节中,我们将介绍两种提议的技术(FSS和DD块)的细节。 这两种方法是在基准网络EDANet [11]上构建的,我们分别将其命名为EDA-FSS和EDA-DDB。

A. Feature Size Selection

详细的空间信息对于准确的车道定位很重要。典型的CNN具有多个下采样层,其中EDANet具有三个下采样操作。在两个下采样块之后,即在尺寸为输入大小1/4的特征图上,它开始提取特征。图2(a)说明了EDANet的体系结构。降采样的特征图往往会丢失精确的边界信息,有时细线会消失。但是,在大型特征图上提取特征需要更多的计算。另外,获得足够宽的接受场更加困难。在这两个需求之间取得良好的平衡是一个挑战。

EDA-FSS,建议的体系结构,如图2(b)所示。它在EDANet的第一个和第二个下采样模块之间放置了一个额外的EDA模块0,该模块由两个EDA模块组成。使用EDA块0,启用EDA-FSS可以在较大的要素图(输入大小的1/2)上提取要素,因此可以检测到较小的对象或详细的边界。为了保持相似的计算复杂度以实现较高的推理速度和公平的比较,我们将EDA块1和EDA块2中的EDA模块数量分别从5减少到4和8减少到5。每个卷积层的增长率也从40降低到30。EDA-FSS的总深度和宽度比EDANet的更浅,更窄,因为在早期执行操作需要更多的计算。对于此特定任务,此折衷可成功提高分割精度。

B. Degressive Dilation Block

扩张卷积被许多语义分割网络广泛使用[3,20]。通常,这些架构利用增量卷积速率来利用扩张的卷积来逐步扩大接收场。 EDANet也采用相同的概念。但是,该设计存在以下问题:相邻像素的滤光片支架可能会在局部特征中产生不一致的空间信息。换句话说,较深层中的相邻像素的接收场可能仅在较浅层中彼此稍微重叠。此外,由于卷积核的稀疏性,可能无法收集基本的局部特征。此问题将导致对细小物体的识别不准确。滨口等。 [8]提出了一种称为局部特征提取(LFE)模块的体系结构,其目的是分割遥感图像中的小实例。 LFE模块由具有递减膨胀率的几个卷积层组成,可以在一定程度上解决上述问题。

受LFE模块启发,我们提出了一种新结构DD Block。与使用一个卷积层作为结构单元的LFE模块不同,它的单元是一个EDA模块。 DD模块由四个具有递减膨胀率的EDA模块组成:8、4、2和1。我们将建议的DD模块插入EDANet中以构建EDA-DDB。表I比较了EDANet和EDA-DDB之间的结构。 EDA-DDB添加了一个DD块,并将EDA块2中的EDA模块数量从八个减少到了四个。扩张速度依次为2、4、8和16。 EDA-DDB具有与EDANet相同的参数数量和计算复杂性。

EXPERIMENTS

我们构造了提议的FSS和DD块的几种变体。 然后,我们进行了一系列实验以分析其性能。 在本节中,我们首先介绍我们使用的数据集。 接下来,描述实施细节。 最后,报道了实验结果。

A. ITRI Dataset

ITRI数据集由台湾工业技术研究院(ITRI)的机械和机电系统研究实验室创建。 据我们所知,它是第一批具有不同类型行车线的像素级注释的数据集。 该数据集仍在增长,因此我们仅使用其当前可用的子集。 我们将给定的集合C2,C3,C7,C13,C18和C20组合在一起,形成包含2,192张图像的训练集。 测试集包括C4和C14集,共567张图像。 数据集共有六个类别,包括四种类型的行车线,道路和未定义类别。 泳道的四种类型是双黄实线,单黄虚线,红实线和白实线。 道路上的所有其他标记均标记为道路类别。 图像分辨率为480×720。 图3显示了一些示例。

B. Implementation Details

我们遵循与EDANet [11]中类似的培训设置。 我们的网络是使用Adam优化[9]进行训练的。 权重衰减设置为1e-4,批量大小为16。我们将初始学习率设置为5e-4,并采用多学习率策略; 也就是说,学习率乘以(1- − / max _))乘以0.9。 随机水平翻转和两个轴上0到2像素的平移用于数据增强。 我们采用交叉相交的平均值(mIoU)作为准确性评估的指标。 我们不使用任何测试技巧,例如多作物和多规模测试。 我们的计算设备是单个GTX 1080Ti。

C. Feature Size Selection

我们在ITRI数据集上评估提出的EDA-FSS的性能。 我们还设计和评估了EDA-FSS的两个网络变体,称为网络A和网络B,以进行比较。 它们的体系结构如图4所示。与EDA-FSS相比,网络A将EDA块0中的EDA模块的数量从2增加到4,但是整个EDA块2被丢弃以保持相似的计算复杂性。 网络B在第一个下采样模块的前面进一步添加了EDA模块-1 in,该模块由两个EDA模块组成。 此块提取功能具有原始图像尺寸(480×720)。 同样,出于对计算成本和公平比较的考虑,将EDA块0中的EDA模块的数量设置为1。此外,整个EDA块1从网络B中删除。

表II报告了实验结果。从EDANet到网络B,要素图的大小变大,但它们的网络深度变浅,以保持相似的计算复杂性。然后,我们探索特征尺寸和网络深度之间的权衡。首先,我们可以看到我们的基线EDANet在mIoU准确性和运行时间方面都优于另一个著名的高效细分网络ERFNet [15]。其次,拟议的EDA-FSS在准确性上超过了EDANet,并且运行时间甚至更短。因此,我们得出的结论是,由于保留了更多的空间信息,因此在早期放置一些卷积层能够提取出用于小对象分割的更多有用特征。另一方面,网络A和网络B的相对较差的性能表明,非常浅的结构虽然会提取较大尺寸的特征,但却不是很好的解决方案。它们不能获得足够宽的接收场,并且它们的计算成本甚至更高。显然,EDA-FSS达到了更好的平衡。图5比较了他们的视觉效果。我们可以观察到ERFNet在第一个样本图像中未能将黄色双实线识别为一个统一的泳道。 EDANet在第二个示例图像中存在相同的问题。接下来,网络B在第二个样本图像中的道路上产生洞。通常,EDA-FSS输出最精确的结果,其中模式完整无缺并被正确检测。

D. Degressive Dilation Block

我们评估了提议的EDA-DDB的性能。 同样,我们为消融研究设计了几种变体。 表III比较了每个变体的结构。 EDA-w / o-di不包括任何扩张的卷积。 它用于评估使用膨胀卷积的有效性。 EDA-DDB-L将DD模块直接连接到EDANet,而不会减少EDA模块2中的EDA模块数量。EDA-Large-1添加了四个具有固定扩展率1的EDA模块。此额外的模块具有相同的参数数量和 DD块的复杂性。 EDA-Large-16与EDA-Large-1几乎相同,不同之处在于其额外块的固定扩展率为16。EDA-Large-1和EDA-Large-16用于检查DD块是否带来了改进 EDA-DDB-L中的“降级”是由于递减膨胀设计或仅仅是附加参数。

如表IV所示,EDA-w / o-di不如EDANet准确,这证明了扩展卷积的有效性。接下来,EDA-DDB-L的性能优于EDANet,但比EDA-Large-16差。结果,EDA-DDB-L的改进可能是由于增加了参数而不是DD Block的概念。最后,提出的EDA-DDB达到了最佳性能,这表明以适当的方式利用不断降低的膨胀率仍然可以带来改进。车道是一个细小的物体,因此不会从太深的结构中受益。这是EDA-DDB尽管参数较少但仍能超过EDA-DDB-L的原因之一。总之,在网络复杂度相同的情况下,EDA-DDB成功地实现了比基线更好的显着性能。此外,即使在高分辨率图像(480×720)上,它也可以保持非常短的运行时间。图6展示了EDA-DDB产生的几种视觉结果。基本上,它能够检测道路场景图像中的大多数车道,并且可以正确地区分不同类型的车道。尽管如此,它有时还是会错过侧线,特别是右侧的红色线。这是我们可以进一步调查的。

 

CONCLUSION

在本文中,我们提出了两种用于多类车道语义分割的技术:特征尺寸选择和DD块。 我们发现使用较大的特征尺寸可以获取更多的定位信息以进行小对象分割,但是在网络深度和推理速度之间保持良好的平衡至关重要。 接下来,所提议的EDA-DDB在改进的EDANet中包括DD块,通过更细粒度的空间信息,可以显着提高精度。 我们的系统生成强大的车道特征,可通过车道标记后处理算法轻松使用。 而且,它们能够在高分辨率输入下实时运行,因此对于真正的自动驾驶汽车来说是可行的。 这项工作中提出的技术不仅限于使用车道检测,还可以在其他小对象语义分割任务中尝试使用。

 

 

 

 

 

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值