摘要
我们提出了一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法。以图像为输入,首先使用通用完全卷积网络( FCN )预测建筑物分割图,然后使用生成对抗网络( GAN )对建筑物边界进行正则化处理,使其更加逼真,即有更多的直线型轮廓,在需要时构造直角。这是通过给定输入图像为真的概率的鉴别器和从鉴别器响应中学习创造更真实图像的生成器之间的相互作用来实现的。最后,从正则化的建筑物分割结果中训练出适应预测建筑物角点对应稀疏结果的骨干卷积神经网络( CNN )。在3个建筑物分割数据集上的实验表明,该方法不仅能够得到准确的分割结果,而且能够生成参数化为多边形的视觉愉悦的建筑物轮廓。
1.引言
从航空或卫星影像中提取建筑物多边形矢量表示的能力已成为城市规划与发展、城市建模、地图学等众多遥感应用中的研究热点。新方法的兴趣和发展也源于目前存在的几个公共基准数据集,如INRIA、SpaceNet、CrowdAI等,该研究领域的经典方法大多是将语义类赋值到图像中的每个像素,得到分类掩模作为输出。但是,对于许多应用来说,矢量信息形式的更高级的输出是有需求的。在本工作中,我们不仅要提供建筑物分割结果,其轮廓遵循真实的建筑物形态,主要是直线和直角,而且要为每个建筑物实例生成多边形向量结构。
卷积神经网络( CNNs )为计算机视觉领域带来了重大贡献,将自己确立为语义和实例分割的基础。然而,在高精度地进行像素分类的同时,它们在划定准确和规则的建筑物边界方面存在问题。为了克服这个问题,我们在像素域中应用几何约束,利用对抗性损失对边界进行正则化。具体来说,基于生成对抗网络( GAN )的生成部分将残差递归U - Net ( R2U-Net )得到的分割结果或数据集的真值作为输入。通过获取鉴别器的梯度反馈,验证其输入是来自正则化分割模板还是理想分割模板,生成器学习输出我们初始分割的改进轮廓。
在文献中,已有一些方法尝试使用CNN范式直接预测物体边界的顶点。它们要么是基于一次迭代预测一个物体的轮廓点[ 8,9 ],并有可能被用户交互进行修正,要么只预测4边多边形[ 10 ],然而现实世界的建筑物并不拘泥于一定量的角点。受此启发,Li et al . [ 11 ]在区域建议网络( RPN )之上提出了一个递归神经网络( RNN ),该网络逐步预测每个感兴趣区域内单个建筑物可能出现的角点。在我们的方法中,我们不想局限于对以输入补丁为中心的单个建筑物的角点预测。对提出的Mask2Poly网络进行训练,从正则化分割结果中预测图像场景中建筑物随机数的任意多个角点(取决于结构复杂度)。
对提出的Mask2Poly网络进行训练,从正则化分割结果中预测图像场景中建筑物随机数的任意多个角点(取决于结构复杂度)。在得到Mask2Poly的角点预测后,多边形表示的一些结果如图1所示。在第二节中,我们审查了有关领域的最新方法。然后在第三节中介绍了所设计的体系结构的细节和所选目标函数背后的直觉。在第四节中,我们展示了我们的方法在三个公开数据集上的有效性,即INRIA [ 1 ]、SpaceNet [ 2 ]和CrowdAI [ 3 ]。
2.准备工作
从顶视图像中进行建筑物分割几十年来一直是遥感领域的主要研究课题之一。在深度学习时代之前,传统的建筑足迹提取方法依靠多步工作流程,利用检测到的低层特征形成建筑假设[ 12,13 ],假设建筑由规则的矩形形状组成[ 14,15 ],以及建筑外观之间光谱反射率值的相似性[ 16,17 ]。在引入更强大的硬件之后,最近的方法开始大量利用深度卷积网络进行自动建筑物划定,提供最新的成果。利用卫星或机载图像的高分辨率光谱信息,将FCN应用于卫星或机载图像的像素语义分割[ 5,18 ]。一些方法将来自数字表面模型( DSMs ) [