论文阅读——A higher-order CRF model for road network extraction

A higher-order CRF model for road network extraction
一种用于道路网络提取的高阶CRF模型

Abstract

本文的目标是从航空遥感图像中提取道路网络图。基于以下原因使得路网提取十分具有挑战性:道路是一个连续平滑的网络,狭窄的道路在路口处交汇。这种需要先验知识的分割比假定标准平滑或者共发更难转化为可处理的模型。
本文提出一种新的CRF方法对道路进行标记,将先验知识标记为高阶集合,这些集合沿着一条线连接成一组超像素。这些集合倾向于将所有超像素分配给道路,因此一些较细的道路部分像素就被得到了增强,而CRF依旧可以通过图像切割进行优化。
尽管这一组高阶集团十分强大,但是本文提出一种采样策略更集中于与优化相关的那部分超像素。在两个数据集上的实验表明这种方法有效提升了逐像素的精度和提取道路的拓扑一致性,优于一些基于平滑和基于启发的方法。

Section I Introduction

本文解决的问题是如何从遥感图像中提取道路网络,这一任务十分具有挑战性但是在地图绘制和遥感测量上却有重要应用,在长达二十年的研究中并没有研究到如何自动化的进行道路提取。

进行道路提取中最具挑战的一步就是如何提取到拓扑结构正确的道路网络。一旦道路的结构被破坏或者让人产生幻觉,那么这一路线图也就没用了。用于道路导航,即使绝大部分像素被正确标记为road和background,但只有精确覆盖完整道路的中心线和轮廓才能进一步做精确的定位。并且这不仅是道路提取,也是一个普遍存在的问题,广泛存在于需要理解具有网络拓扑结构的任务中,比如Fig1中罗列的除了道路提取还有字母提取这一任务。

图像理解的主要难点在于数据含有噪声,是不完整的、具有歧义。因此只有了解先验知识才能获得正确的理解结果,所以前期的研究一直聚焦于如何更好的纳入这些先验知识。比如更好的估计物体的位置,基于一些“天空一般都在顶部”这种经验,按照这些条件可以直接估算一些独立像素的可能性。
一些更强大的模型会考虑更多先验知识,比如“船一般在水下发现”“邻近区域一般属于同一语义类别”,由于这些限制的存在,不同的变量之间不再相互独立而是形成了条件随机场(CRF)。虽然推断这种模型更为复杂但仍有解决办法,比如通过添加诸多约束进行近似估计。


但对于一些目标需要更复杂的先验知识,比如分割出来的道路部分一般比较平滑、曲率较小,经常一部分道路会与另一部分道路相接,有的时候又只连接一遍,几乎没有孤立的部分。
但是需要注意,即使一小部分完全孤立的像素但被标记为道路,如果他们沿着一条线排开那就很有可能就是道路,尤其如果这一超像素的第一个点与最后一个点可能存在交叉,更可能是道路了。


在这里插入图片描述一种解决方案是将这些条件作为约束加入概率模型,但是基于此产生的似然函数往往并不适合高效的推理。大部分研究中都是在目标检测后通过填补上道路之间的空白。
本文则是基于概率构建了一个中间模型,用来捕捉道路网络的重要性。


主要贡献包括:



(1)将约束表述为高阶形式
;


(2)提出一种数据驱动的采样策略从而找到相关的集合并进行推理。

Section II Related work

最早进行道路检测是将道路像素识别为一系列局部图像进行处理;还有借助detector计算局部道路评分然后再根据特定算法迭代的找到最小成本的路径;进行多尺度的线段检测探测道路等。在[25]中引入标记点过程(MPP)来表示短路段,其中包含了关于道路连接和交叉口的概率。
但是这些工作都针对农村和郊区道路,一般比较稀疏,很少受到阴影、汽车、遮挡的影响。在少有的进行城市道路连接的工作中,[11]使用了多种不同线段来标记山谷、车辆等信息,然后通过迭代插入确实部分的连接,并证明他们具有足够均匀的亮度。

Section III CRF Model of the road network

本文将道路提取看做一种超像素的二分类任务,CRF将一些关于道路的先验假设进行编码,下面具体阐述模型各个部分。
Part A图像表示
本文处理的最小单元不是逐个像素,而是被分割成的一系列小的规则的超像素。一方面是因为超像素包含更大范围,提供更好的一致性,另一方面是无论在clique generation还是推理都能加速。
但是超像素的缺点就是在某些情况下可能会导致锯齿状的分割。
本文聚焦的地方在于如何提升网络结构的拓扑结构,以及分割的边界能够在后续处理过程中逐步被整理,获得更强大的先验知识。
下一步就是预测每一个超像素点属于道路还是背景。提取的特征就是颜色和纹理信息。
Part B 高阶CRF模型

CRF已经成为表征图像约束条件的标准工具,一阶CRF优点在于推理高效,如果适当的约束高阶CRF也可实现高效推理,同时还能获得更强大的建模能力。
因此本文使用高阶CRF来进行特征提取。目标是建模P(y|x),其中变量是超像素的集合,标签集合则是{0,1}分别代表背景和道路。


本文的目标就是在背景主导的图像中提取出细长的道路部分。显然,成对的CRF不足以编码这种细长的远程结构,更倾向于表征平滑的结构,因此就需要超像素的高阶CRF表征,以及需要积累道路标签的证据从而确定这部分就是road。
即使加入这么多约束还是会包含背景部分的超像素,这就需要对非道路部分施加惩罚。此外这种先验知识并不是对称的,因为在主要都是背景的图像中依旧会有几条道路相交,这时候就会包含一些超像素倾向于标记为这一种类。
本文使用的高阶项具有如下形式:
在这里插入图片描述在这里插入图片描述

其中Pr表示所有road超像素的加权和,Pb是背景超像素的加权和。
Part C Contrast-sensitive node weighting


为了避免平滑过渡,本文使用了对比度敏感节点的权重。如果某超像素预测为背景但其特征与其他又有较大偏移,那么这一部分可能不会对energy有较大影响。基于经验主义本文发现以下权重策略比较有用:



计算所有clique的平均向量,然后衡量每一个clique到平均向量的举例;然后根据以下法则计算权重:

在均匀的道路上,各特征接近,因此clique距离平均值也更近,而一些建筑物、植被的超像素就会凸显出来。



因此根据以上原则计算的权重会将在标准方差两倍之外的超像素完全移除。这样可以有效减少假阳性的产生。




Part D Clique sampling



剩下的问题就是如何处理巨量的potential clique,因为将所有可能的路径考虑尽是完全不可能的。因为绝大部分的clique都与road无关,倾向于是背景类别。此时将属于背景类别的potential置为0就不会改变整体的energy。




进一步思考,还会有很多clique具有同样的potential value。对于一个路段,考虑两个标记为背景的超像素,通过移动沿着道路的线段或者稍微旋转/收缩就可以产生大量的派系,他们拥有相似的权重wi,因为他们大多由相同的像素支持。
这样就能得到一系列相关的clique,这就是数据驱动的方式。




再回到前文对road的定义:道路网络由几乎或者局部是交叉路口的一些直线段。




基于这种定义本文以两种方式进行采样:network clique,junction clique。





Network clique:随机抽取两个高度可能是road的种子节点然后将二节点连接起来。涉及到的超像素超过一半位于道路内则被认为属于同一道路网络。





Junction clique:交叉结构是一种星状结构,三条线段在一个中心节点上相遇。通过随机采样一个中心的超像素以及额外的三个节点确定三条线段。以及超过3个的交叉结构就可以用多个连接结构来表示。




Fig3就展示了network clique和junction clique的密度。
另外为了减少推理用的实践,本文按照一定的标准来去除不相关的连接。





首先,只对road概率>0.5的节点进行采样;其次限制两个采样点之间的距离,通常占据整张图像对角线2/3效果会比较好;此外本文还会这顶一个阈值,低于阈值的clique直接丢弃,而对于junction clique会额外限定不同道路的角度,避免两条道路属于同一条道路,本文设定的阈值是30°。





在这里插入图片描述

Section IV Experiments

本文在两类不同的遥感空间图像数据集上进行测试,图片大小为500x500,比例尺为0.5m.
数据集1是关于德国城市VAIHINGE的图像,包含14张彩图,train:test=4:10;第二个数据集是奥地利GRAZ城市,train:test = 4:14.

按照本文方法进行的实验主要与三种基线方法进行对比:完全基于随机森林,Potts model和第三种:简单采样可能的道路点并把他们的所有像素分配给道路。

在根据设定阈值Pr>0.5进行筛选后还会剩下1000-5000个可能的clique,他们都有很大的potential energy。


Part A 评价指标



首先会计算completeness,correctness,quality指标,这些都是在道路提取广泛使用的。分别定义为:




Completeness:真实道路的中心线被认为是GT,如果预测点落在中心线的缓冲范围B内,则被认为是TP,如果不在这一范围内则被认为是FN,因此completeness = TP/(TP + FN).




Correctness:就是评价模型的精确度precision,如果预测的中心线在GT的缓冲区域B内则认为是TP,否则就是FP,因此correctness = TP/(TP+FP)





Quality:总和考虑了两种指标 表述为 TP/(TP+FP+FN)





本文将buffer 宽度设置为5pixel,这对应于能提取到的最细的道路。
此外还会计算像素级的分割精度。
虽然以上度量在做mapping的时候得到了广泛的应用,但是它们完全忽略了提取出的道路网络的拓扑正确性,而这又对道路导航至关重要。比如分割出两个死胡同,这样的误分类会导致用户走很长的弯路但却只会略微影响完整性指标。




拓扑结构的正确性




因此为了正确评估提取道路的拓扑结构的正确性,
本文提出额外的错误评价指标来衡量提取出的拓扑结构的正确性,具体通过以下方式计算:

随机采样两个点,即位于真实道路上也位于预测的道路上,然后检查两点之间的最短路径,在两个网络结构中是否具有相同的长度;为了避免几何不确定性确定方差上限为5%。然后随机采样不同的点重复上述过程,并记录 正确的、太短的、太长的、不连通的路径各自所占的百分比,直到收敛。其中太长的和不连通的路径表示缺少连接,太短的表示可能连接是假的。


Table 1和Table 2展示了两个数据集(Graz和Vaihingen)上不同方法的拓扑结构正确性的各种指标。
在这里插入图片描述

Graz
数据集:


Graz中一些狭窄的道路有阴影、汽车等的遮挡,使用随机森林的方法就会有很多假阳性,而本文的HOP方法会将间隙部分的超像素归类为背景,从而不会创建虚假连接,并且还有对比度敏感的惩罚,因此表现更好。



因此HOP最忠实的进行了道路提取,失效模式主要包含两类:



一类是检测长时间连续的道路,目前模型无法补救这一点;



二是死胡同的情况,因为clique只在seed像素周围进行采样,一个可能原因是对道路的定义,本文定义为一些拉长或者连接路口的道路,但是实际中一些停车场庭院也被认为是道路从而使得模型无覆盖这种情况。



在这里插入图片描述

Vaihingen数据集:




Vaihingen数据集更具挑战性因为包含了许多垂挑的数目、建筑物的形状也更加多样。但HOP模型依旧优于其他对比模型。而Potts效果最差。很多被建筑物或者数目遮挡的道路都被误分类的。而HOP克服了这一问题。具有最好的拓扑结构性。

Section V Conclusion and outlook

本文形成了一种高效的道路提取网络,不仅提升了分割精度还提出新的拓扑正确性评价方式。
未来本文还会探究是否可以基于最少的证据进行提取、是否需要加入额外的先验知识,比如道路接剖面的高度图(如果道路被建筑物或树木遮挡了)。




本文还提出了如何进行clique sampling,基于大量数据进行学习似乎是可行的,因此本文预计开发一种无须硬阈值的采样方法。




同时本文还可以尝试学习更复杂的道路模式,如矩形回路或者高速公路出口位置等,需要建模更复杂的分布。
最后本文提出的模型不仅仅局限于道路提取任务中,还可以用于一些医疗图像如血管、神经的分割以及工程上的裂缝检测。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值