PolyCity:高分辨率遥感影像多边形建筑分割的联合语义-几何学习,Joint semantic–geometric learning for polygonal building

发表于ISPRS,2023.7

Joint semantic–geometric learning for polygonal building segmentation from high-resolution remote sensing images

仓库代码

提出的PolyCity包含以下三个组成部分:(1)一个逐像素的多任务网络,通过三个任务,即建筑分割、边界预测和边缘方向预测来学习语义和几何信息;(2)简单而有效的顶点选择模块(VSM),该模块通过将分割图转换为有效的多边形顶点,有效地弥合了基于像素和基于图的模型之间的差距;(3)基于图的顶点细化网络(VRN),用于自动调整VSM生成的有效多边形顶点坐标,生成顶点更精确的最终建筑多边形。

如下图所示,整体包含三个主要组件,即逐像素的多任务网络,基于规则的顶点选择模块和基于图的顶点细化网络。

1以单个目标裁剪的卫星图像为输入,设计了多任务网络,用于建筑物面积分割、建筑物边界预测和边缘方向预测。

2顶点选择模块有效地利用三种类型的网络输出将分割掩码转换为一组有效的多边形顶点。

3最后,顶点细化网络将有效多边形顶点作为图形表示的初始节点,并预测每个节点的位移,从而自动调整有效多边形顶点到更精确的位置。

边缘导向的多任务学习

建筑物分割和边界预测是现有建筑物提取方法中常见的问题。除了这两个任务之外,我们还引入了一个额外的任务来学习建筑多边形的几何信息,即边缘方向预测。我们使用每条边的法向量来计算方向值。

根据以下方法,将原始建筑足迹注释转换为边缘方向表示:

I表示输入图像,E表示建筑物足迹注释的边缘。对于一个属于边缘E(j)的像素i,其方向角的方向值由边缘E(j)的法向量决定,表示为𝑁(𝐸𝑗)。具体地说,像素i的方向角𝛼i的定义为法向量𝑁(𝐸𝑗)与重力方向𝐺逆时针方向的夹角。在我们的方法中,将方向角𝛼i进一步离散为方向类𝑦𝑜(𝑖),并将其划分为𝐾类。对于每个像素,方向类的范围为[0,𝐾]的整数。如果像素部份不属于任何建筑边缘,则其方向类𝑦𝑜(𝑖)=0;如果像素部份位于建筑物的四角处,那么然它的一个邻边来赋值方向类𝑦𝑜(𝑖)。这样,建筑足迹的每条边缘𝑗都被赋予了方向属性,每个像素点的边缘方向都可以标注为𝐾+ 1类中的一个。  (这个K后面看到默认是36,这样意思是最多36个方向,方向角为10°)

顶点选择模块 Vertex Selection Module,VSM

我们设计了一个简单而有效的顶点选择模块,用于将分割蒙版转换为多边形顶点。由于卫星图像的非最低点视图,建筑物注释与实际建筑物轮廓之间存在不对齐,导致直接预测建筑物多边形的准确顶点或边缘的挑战。然而,即使标注的边缘与实际建筑边缘不一致,多任务网络预测的边缘方向仍然能够提供有效的几何信息并表征建筑多边形的拓扑结构。

顶点选择模块的目的是根据三种网络输出,过滤掉冗余的顶点,保留有效的顶点。首先,我们通过密集采样提取分割掩码轮廓上的像素坐标,并选择边界预测概率大于给定阈值𝑡𝑏𝑜𝑛的像素坐标,构成一组初始顶点C={𝑐0,𝑐1,𝑐2,…,𝑐𝑛})。使用𝑦𝑜𝑟𝑖(𝑐𝑖),(𝑖∈{0,1,2,…,𝑛})来表示由多任务网络预测得到的为每个顶点𝐶的边缘方向类,使用𝑦𝑣𝑒𝑟(𝑐𝑖),(𝑖∈{0,1,2,…,𝑛})表明顶点𝑐𝑖是否被选中作为一个有效的顶点(是:𝑦𝑣𝑒𝑟(𝑐𝑖)= 1,否:𝑦𝑣𝑒𝑟(𝑐𝑖)= 0)。

𝑐𝑖将被选为一个有效的顶点只有在𝑦𝑜𝑟𝑖(𝑐𝑖)和𝑦𝑜𝑟𝑖(𝑐𝑖−1)大于或等于一个给定的阈值𝑡𝑜𝑟𝑖时,因此可归纳为:

(𝑡𝑏𝑜𝑛 =0.5  tori=3  3???可能是𝑦𝑜𝑟𝑖(𝑐𝑖)不是0-1,3是作者经验值)

顶点细化网络Vertex refinement network VRN

顶点选择模块得到的输出顶点集只包含有效的多边形顶点,这部分设计了一个顶点细化网络(VRN)来进一步提高顶点预测精度。如图3所示,VRN包含两个主要组成部分:(1)基于resnet的骨干网络,用于顶点嵌入,提取输入图像和顶点的特征,进行进一步的顶点校正;(2)基于ggnn的顶点校正传播模型,该模型学习预测每个顶点的位移,以便将其移动到更精确的位置。请注意,基于resnet的骨干网和基于ggnn的传播模型以端到端方式一起训练。每个组件的详细信息介绍如下

resnet

VRN的主干架构是ResNet-50的变体,该算法采用跳跃连接结构对从四个跳跃层获得的特征图进行上采样和连接,构成顶点嵌入的最终特征图。对于更大尺寸的最终特征图,由于特征图的分辨率更高,可以更精确地表示顶点坐标。另一方面,对于较小尺寸的最终特征映射,网格通常具有较大的接受域,这有利于每个顶点的位移预测。考虑到这两个方面,最终的主干特征图的大小被设置为输入图像原始大小的一半。(没看懂)

GGNN

与逐像素分割网络不同,基于GGNN的传播模型能够利用图中每个节点(顶点)的特征和每个节点之间的关系等额外信息。此外,我们在GGNN中添加了两个完全连接的层,它输出一个值,表示每个节点的预测位移

在训练阶段,GGNN的目标是学习每个有效多边形顶点(VSM的输出)与其最近的地面真值顶点之间的位移。整个过程被表述为一个分类问题,并使用交叉熵损失进行训练。由于VSM选择的顶点已经接近建筑的角落,所以我们使用一个固定的范围[−𝑘,𝑘]来调整在x和y的顶点。在此范围内,位移坐标(𝛿𝑥,𝛿𝑦)的每一种情况被编码为一个类值,共构成(2𝑘+1)2个类别。与没有范围限制的回归相比,整个训练过程要容易得多。将VRN预测的类值进一步转换为位移坐标,并与VSM对应的顶点坐标相加,得到最终的预测结果。这样,基于GGNN的VRN在推理阶段自动将多边形顶点移动到更精确的位置。

这里的设置可以看出网络的设计应该考虑怎么才能控制损失,让网络收敛到目标任务上去,但我的疑问是这个过程的标签值仍是最初训练多任务的顶点值吗?需要看源码

将顶点移动范围设置为[−7,+7]像素,并相应地将两个完全连接层的输出维度设置为225(152)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值