RoadNet:学会从高分辨率遥感图像中全面分析复杂城市场景中的道路网络
摘要——从高分辨率(VHR)遥感图像中自动提取道路网是一项经典任务。提出了一种在复杂城市场景下从VHR遥感影像中提取道路网的新方法。受图像分割、边缘检测和物体骨架提取的启发,我们开发了一种名为 RoadNet 的多任务卷积神经网络(CNN),可同时预测道路表面、边缘和中心线,这在该领域尚属首次。RoadNet 解决了这一视觉问题中的七个重要问题:1)自动学习多尺度和多层次特征(由提供综合直接监督的深度监督网络(DSN)获得),以应对各种场景和尺度下的道路;2)在级联的端到端 CNN 模型中整体训练上述任务;3)在网络模型中关联路面、边缘和中心线的预测,以改进多任务预测;4) 设计精细的架构和损失函数,使训练有素的模型无需非最大抑制后处理即可生成近似单像素宽度的道路边缘/中心线;5) 采用裁剪和双线性混合技术,以有限的计算资源处理大尺寸 VHR 图像;6) 在具有挑战性的区域引入粗略而简单的用户交互,以获得所需的预测结果;以及 7) 建立基准数据集,该数据集由一系列带像素标注的 VHR 遥感图像组成。与以往的研究不同,我们更加关注具有挑战性的情况,即道路沿线存在大量阴影和遮挡物的情况。在两个基准数据集上的实验结果显示了我们提出的方法的优越性。
关键词–基准数据集、双线性混合、中心线提取、卷积神经网络(CNN)、边缘检测、图像分割、损失函数、路网提取、用户交互。
I.引言
从遥感图像中提取道路在城市设计、地理参照、车辆导航、地理空间数据集成和智能交通系统中发挥着重要作用。然而,从高分辨率(VHR)图像中手动标注道路非常耗时且繁琐。基于无监督学习的方法通常依赖于几个预定义的特征,在异构区域容易失效,准确率也很低。最近,卷积神经网络(CNN)等有监督深度学习方法在许多高级计算机视觉任务中取得了一流的性能,例如图像识别[1]-[3]、物体检测[4]-[6]、语义分割[7]-[11]、边缘/轮廓检测[12]-[14]和骨架提取[15]。随着 CNN 的发展,从 VHR 图像中自动提取道路往往是一种经济而有效的方法。
一般来说,路网提取包括三个子任务:路面分割、道路边缘检测和道路中心线提取,如图 1 所示,其中涉及多个视觉问题:语义分割、边缘检测和对象骨架提取。因此,这是一项极具挑战性的任务。路面分割是将路面像素提取出来[16]-[24]。我们尝试提取完整的路面分割,即使是在一些极端情况下(如阴影和遮挡),这与之前的研究有很大不同。导致道路区域出现异质区域的主要原因有两个:
1) 道路沿线的建筑物和林荫道会形成阴影;
2) 汽车、建筑物和林荫道会导致遮挡。这些都给道路网络提取带来了困难和挑战。
然而,目前大多数方法都忽略或回避了上述问题,其中已发布的基准数据集都是在城市地区精心挑选的。道路边缘检测是为了提取单像素宽度的道路边界[25],这是驾驶辅助系统的一项重要功能。众所周知,完全 CNN [8]、[9]、[11] 通常会在异质物体区域,尤其是边界区域失效,产生粗糙的分割边界。我们建议从路面边缘获得路面分割结果,在此基础上学习一些有意义的低层次特征,从而获得精细的预测结果。道路中心线提取是一种广泛使用的道路网络表示方法。
对于之前的大多数中心线提取方法[26]-[31],都包括两个步骤来获得最终的道路网络。首先,应用各种算法获得同质道路分割。然后,使用中心线提取算法获得最终的道路中心线网络。
总体而言,路面的信息和内存消耗远大于路边的信息和内存消耗,而路边的信息和内存消耗又远大于道路中心线的信息和内存消耗。
本文提出了一种基于深度 CNN 的路网提取系统,该系统由三个全卷积网络(FCN)组成,可同时预测上述三个子任务。我们探索了最新技术,以提高所提模型的性能。我们的方法的主要贡献如下:
1) 我们提出了一种多任务像素端到端 CNN–RoadNet,可同时预测道路表面、边缘和中心线。RoadNet 可自动学习多尺度和多层次特征,并在专门设计的级联网络中进行整体训练,从而能够处理各种场景和尺度下的道路。
2) 上述子任务在训练阶段相互关联,其中路面分割预测同时应用于道路边缘检测和道路中心线提取。一方面,精细的路面分割有助于道路边缘检测和道路中心线提取,可将其视为理想的初始化,只需少量复杂背景。另一方面,精确的道路边缘/中心线可以细化分割边界,尤其是道路边缘。
3) 提议网络的架构和损失函数经过精心设计。因此,训练有素的模型可以生成近似单像素宽度的道路边缘/中心线,而无需进行非最大抑制(NMS)后处理。
4) 提供了简单的用户交互方法,以解决道路沿线阴影和遮挡区域的难题,这是该领域的首项工作。
5) 我们开发了一种裁剪和双线性混合方法,以应对无法利用有限 GPU 资源进行整体训练或测试的大型 VHR 图像。
6) 针对此类多重任务发布了一个具有挑战性的基准数据集,其中包含每像素空间分辨率为 0.21 米的图像及其相应的参考地图,涵盖 21 个具有复杂背景的典型城市区域。
本文的其余部分安排如下。第二节回顾了路网检测方面的一些相关工作。第三节详细介绍了我们提出的 RoadNet。第四节介绍了所提出的基准数据集。第五节是实验,包括评估指标和性能。