TPAMI 2024 | 基于GPR和模型空间学习的地下诊断

最新推荐文章于 2024-07-17 21:40:42 发布

小白学视觉

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量814

点赞数 12

文章标签：学习人工智能论文解读 TPAMI 深度学习

本文链接：https://blog.csdn.net/qq_42722197/article/details/139815416

版权

题目：Underground Diagnosis Based on GPR and Learning in the Model Space

基于GPR和模型空间学习的地下诊断

作者：Ao Chen; Xiren Zhou; Yizhan Fan; Huanhuan Chen

摘要

地面穿透雷达（GPR）已广泛应用于管道检测和地下诊断。在实际应用中，通常在完全分析获得的GPR数据之前，很少了解被检测区域的GPR数据特征和可能存在的地下异常结构，这导致了自动识别地下结构或异常的挑战。在本文中，提出了一种基于模型空间学习的GPR B扫描图像诊断方法。模型空间学习的思想是使用在数据部分拟合的模型作为数据更稳定和更简洁的表示。对于GPR图像，提出了2方向回声状态网络（2D-ESN），通过下一项预测拟合图像段。通过在图像的横向和纵向上建立点之间的连接，2D-ESN将GPR图像段视为一个整体，并且能够有效捕捉GPR图像的动态特征。然后，可以在2D-ESN模型上进一步实施半监督和监督学习方法，用于地下诊断。在真实世界数据集上进行了实验，结果证明了所提出模型的有效性。

关键词

2方向回声状态网络
B扫描图像
地面穿透雷达
模型空间学习

I. 引言

现代城市由大量的城市道路和地下设施所便利。与地面建筑不同，一些城市道路和设施的健康状况需要探索地下介质才能有效估计。如果没有适当的诊断和维护，一些老化的道路或设施可能会遭受各种异常模式的损害，主要包括地下空洞、潮湿损害和松散介质，带来城市危害，如潮湿损害、地面沉降和基础设施崩溃[1]。因此，探测城市道路下的地下异常是城市运营的主要任务之一。作为成像地下最合适的手段之一，地面穿透雷达（GPR）利用电磁（EM）波的传输和反射来检测宿主材料中介电性质的变化[2]，[3]。在现实世界的应用中，GPR可以与定位手段（如全球定位系统（GPS）、里程表等）结合使用，以检测和定位地下物体或异常。当从GPR图像中识别出物体或异常时，可以通过相应的定位数据确定它们的位置和范围。已经投入了大量的努力来解释GPR B扫描图像，这些努力大致可以分为两类：在B扫描图像上识别和拟合双曲线特征以及检测非双曲线特征。

B扫描图像中的双曲线特征是由GPR移动穿过的线形圆柱体产生的。可以通过识别和拟合双曲线特征来估计物体的半径和深度[4]。图形方法[5]，[6]，[7]、机器学习方法[8]，[9]，[10]以及一些结合多种方法的方法[11]，[12]，[13]，[14]已经被用来从嘈杂的GPR B扫描图像中提取和拟合双曲线特征。

除了由线形圆柱体产生的双曲线特征外，非双曲线特征在成像地下时可能更为常见和现实的目标，在GPR B扫描图像中。这些特征可能由不同类型的地下介质或目标形成，包括地下空洞、潮湿损害、松散介质等。不同的地下介质或目标会在图像中产生不同的特征。即使是同一类型的地下目标，由于其组成、大小和周围介质的不同，也可能在B扫描图像上形成不同的详细特征[15]。例如，潮湿损害区域会在GPR B扫描图像上形成连续或不连续的亮点区域，而含水量以及周围是否空洞可能会影响所获得的B扫描图像中该区域的亮度变化和边缘[16]。一些基于介电常数的方法[17]，[18]和信号处理算法[19]，[20]已经被提出来定位地下物体。最近，卷积神经网络（CNN）方法[21]，[22]，[23]，[24]，[25]，[26]，[27]也已经被用于图像中的对象识别。

为了识别数据中的异常，提出了基于模型空间的方法，并用于数据分类和诊断[28]、[29]、[30]、[31]、[32]。如图1所示，基于模型空间的方法通过将数据与模型进行拟合来将数据从数据空间映射到模型空间，然后使用能够描述数据的动态特征的模型来表示数据或数据簇。在[28]中，时间信号数据被分割并从信号空间映射到模型空间。利用具有规则跳跃的循环拓扑(CRJ)[33]、[34]来拟合信号段。对每个数据段拟合的CRJ模型在模型空间中进一步分类。随后，在[29]和[30]中，模型空间中的学习框架被用于巴塞罗那供水网络和田纳西伊士曼流程的故障诊断。在[31]和[32]中，时间序列数据被映射到模型空间，然后进行分类。上述基于模型空间的方法旨在处理具有上下文关系的数据。然而，由于地下介质和电磁波的连续性，探地雷达B超图像不仅在水平方向上具有检测时间或位置的连续性，而且在垂直方向上也具有相关性。上述基于模型空间的方法中使用的拟合模型是由传统的回声状态网络(ESN)[35]构建的，这可能无法捕捉到二维图像数据的动态。因此，需要一种能够拟合或描述二维图像数据[36]的设计模型，以捕捉GPR B超图像的动态特性，并将图像映射到具有适当大小的模型空间中以用于进一步处理。

提出了一种基于模型空间学习的探地雷达B超图像诊断方法。构造滑动窗口并在所获得的探地雷达图像上滑动。利用提出的双向回波状态网络(2D-ESN)将滑动窗口中的探地雷达图像段映射到模型空间。具体地说，2D-ESN是一种在两个不同方向上同时考虑当前信息和历史信息的模型。在探地雷达图像中，每个点在水平和垂直方向上都与周围的点相关。不同的地下结构在探地雷达B超图像的水平和垂直方向上会表现出不同的变化规律，即动态特性。2D-ESN通过在水平方向和垂直方向上构建图像上各点之间的连接，能够有效地捕捉探地雷达图像的动态特征。因此，具有相似结构的探地雷达图像段将映射到相似的2D-ESN模型。相反，由不同地下结构产生的探地雷达图像段拟合出的2D-ESN模型，由于其动态特性的不同，在模型空间上会有很大的差异。此外，2D-ESN是一种无需迭代训练即可拟合B超图像的模型，能够实现实时井下诊断。随后，在构建的模型空间中对2D-ESN模型的测距方法进行了改进。基于所构建的模型空间和距离测量方法，可以利用监督和半监督算法在模型空间中对探地雷达B超图像上的异常进行识别或分类。该方法的过程如图2所示。本文的主要贡献可以概括如下：

1)在2D-ESN中，综合考虑了探地雷达B超图像在水平方向上的检测位置和时间连续性以及在垂直方向上的介质连续性，有效地捕捉了B超图像的动态特征。
2)对于深度(列长)为M的图像，所提出的N个隐含层单元的2D-ESN可以拟合2N的模型，而不是传统的ESN得到的ANM×N模型，这可以有效地减少内存消耗，使所提出的诊断方法能够在个人计算机上高效地运行以进行实时处理。
3)该诊断方法可以在没有足够先验知识和数据的情况下对探地雷达图像进行实时诊断，并在构建的模型空间中对不同类型的异常数据进行分类。

本文的其余部分组织如下。第二节介绍了一些背景工作。第三节讨论了2D-ESN，通过它可以将探地雷达B扫描图像段映射到模型空间。第四节提出了基于模型空间学习的探地雷达图像诊断方法。第五节对实验进行了分析，第六节得出了结论。

III. 双向回波状态网络 (2D-ESN)

为了将数据映射到模型空间，用于拟合数据的模型应该充分捕捉数据的动态特性。同时，在实时诊断过程中，需要不断处理新收集的数据，这也对模型的求解和内存占用提出了要求。在本节中，提出了2-Direction Echo State Network (2D-ESN)来满足上述要求。首先简要介绍Echo State Network (ESN)，然后详细介绍2D-ESN。

A. 回声状态网络 (ESN)简介

传统的ESN可以被视为一种处理具有上下文的序列数据的循环离散时间神经网络。为了捕捉序列数据的动态特性，ESN不仅考虑当前输入的影响，还考虑历史信息的影响。如图4所示，ESN由输入层（K个单元）、隐藏层（N个单元）和输出层（L个单元）组成。在时间步n时，输入值、隐藏状态和输出值可以分别表示为 $(x_1(n), \ldots, x_K(n))^T$ ， $(h_1(n), \ldots, h_N(n))^T$ 和 $(y_1(n), \ldots, y_L(n))^T$ 。ESN的迭代和预测公式定义为：
$h(n) = g(W_{hh}h(n - 1) + W_{hx}x(n)),$

$y(n) = W_{yh}h(n) + a,$

其中 $W_{hx} \in \mathbb{R}^{N \times K}$ 是输入层到隐藏层的输入权重， $W_{hh} \in \mathbb{R}^{N \times N}$ 是隐藏层中的水库权重， $W_{yh} \in \mathbb{R}^{L \times N}$ 是隐藏层到输出层的输出权重， $g$ 是激活函数（通常为tanh）， $a$ 是输出模型的偏置向量。

作为简化的递归神经网络（RNN），ESN中的输入和水库权重最初是随机生成并固定的。此外，ESN具有与RNN相似的“记忆”特性。根据公式(1)，在隐藏层的迭代过程中，隐藏状态 $h (n)$ 受到当前输入值 $x (n)$ 和之前处理的隐藏状态 $h (n - 1)$ 的影响。因此，水库通过考虑当前输入和之前处理的隐藏状态，迭代地保留历史信息。此外，这种网络中的水库应该具有Echo State Property (ESP)，这意味着水库将随着时间的推移渐近地冲淡历史信息的影响，以确保ESN的稳定性。在ESN中，水库权重 $W_{hh}$ 按以下方式缩放：

$W_{hh} \leftarrow \alpha W_{hh}^{initial} \frac{\|\lambda_{max}\|}{\lambda_{max}},$

其中 $W_{hh}^{initial}$ 是水库的随机初始化权重， $\|\lambda_{max}\|$ 是 $W_{hh}^{initial}$ 的特征值绝对值的最大值， $\alpha < 1$ 是缩放参数。因此，在ESN中， $\alpha$ 作为谱半径。其中，矩阵的谱半径指的是其特征值绝对值的最大值。在ESN中，历史信息对当前隐藏状态的影响与水库权重的谱半径有关。具有较大谱半径的水库可以保留更多的记忆。相反，较小的谱半径会导致水库更快地忘记历史信息。在本文中，将水库权重的谱半径设置在0到1之间以满足ESP。

在拟合ESN模型时，我们将输入数据逐步送入隐藏层，然后获得相应的隐藏状态。输出权重 $W_{yh}$ 可以通过岭回归计算得出：

$W_{yh} = (H^T H + \lambda^2 I)^{-1}H^T Y,$

其中I是单位矩阵，Y是目标值向量，H是相应隐藏状态的向量， $\lambda > 0$ 是正则化因子。

使用ESN，具有上下文的序列数据可以从未空间映射到模型空间进行进一步分析。但是，ESN存在一些限制。ESN中数据的关联是单向的，无法捕捉数据内部多方向的关系。此外，根据公式(3)，ESN模型的大小与输出单元的数量呈线性增长。在GPR数据处理中，输入数据可能是二维的B-扫描图像。假设有一张GPR图像，其垂直方向（深度）包含M个像素。所得到的ESN的输出权重 $W_{yh}$ 的大小将是M×N。因此，如果直接使用ESN拟合图像数据，输出层的参数维度将过大，不利于模型空间中的进一步分析。

B. 双向回声状态网络 (2D-ESN)

如前所述，GPR B-扫描图像不仅在水平方向具有检测时间或位置的连续性，而且由于地下介质的连续性，垂直方向也存在相关性。不同的地下结构将在GPR B-扫描图像的水平和垂直方向上显示出不同的变化规律（动态特性）。为了捕捉图像的动态特性，2D-ESN将图像中的每个点与左侧和上方的点相关联，并为已经处理过的左上方点建立记忆。此外，与现有模型空间方法中使用的ESN方法相比，2D-ESN将输出层的参数数量减少了数量级。

2D-ESN处理图像数据的流程如图5所示。2D-ESN从图像中的初始点(1, 1)开始，逐列将点送入水库进行迭代，每列从上到下进行处理。与图4中显示的ESN类似，2D-ESN由输入层、隐藏层和输出层组成。输入层表示图像中当前点的灰度值。输出层是当前点的预测值。隐藏层结合了上方和左侧点的输入和隐藏状态，以生成当前点的隐藏状态。其中，输入层和隐藏层的参数不需要训练，只需要求解输出层参数。

在2D-ESN的迭代过程中，对于每个点，当前隐藏状态不仅受到当前输入的影响，还受到上方和左侧点的隐藏状态的影响。对于点 $(i, j)$ ，2D-ESN隐藏层迭代如图6所示。

迭代公式定义为：

$h(i, j) = g(W_{hh1}h(i - 1, j) + W_{hh2}h(i, j - 1) + W_{hx}x(i, j)),$

其中 $\in \mathbb{R}^{N \times 1}$ 是图像中点(i, j)的隐藏状态， $\in \mathbb{R}^{1 \times 1}$ 是图像中点(i, j)的灰度值， $W_{hh1}, W_{hh2} \in \mathbb{R}^{N \times N}$ 是隐藏层中的水库权重， $W_{hx} \in \mathbb{R}^{N \times 1}$ 是输入权重。其中，2D-ESN中的输入权重( $W_{hx}$ )和水库权重( $W_{hh1}, W_{hh2}$ )是随机生成的。并且水库应该满足ESP。根据2D-ESN的迭代公式(4)，当前点 $(i, j)$ 的隐藏状态 $h (i, j)$ 不仅受到输入值 $x (i, j)$ 的影响，还受到水平和垂直方向上周围已处理点的隐藏状态 $h (i - 1, j)$ 和 $h (i, j - 1)$ 的影响。因此，2D-ESN将GPR图像中的每个点与左侧和上方的点相关联，因此在水平和垂直方向上为已经处理过的左上方点建立了记忆。

为了通过2D-ESN将图像数据映射到模型空间，完成了“下一个项目预测”任务，如图7所示，即构建目标值与其上方和左侧隐藏状态之间的映射。

对于点(i, j)，2D-ESN预测公式定义为：

$y(i, j) = W_{yh1}h(i - 1, j) + W_{yh2}h(i, j - 1) + a,$

其中 $\in \mathbb{R}^{1 \times 1}$ 是图像中点(i, j)的输出值， $\in \mathbb{R}^{N \times 1}$ 是当前点(i, j)在图像中的上方和左侧点的隐藏状态， $a$ 是输出模型的偏置向量。 $W_{yh} = [W_{yh1}, W_{yh2}]$ 是2D-ESN的输出权重，其中 $W

由于 $W_{yh1}, W_{yh2} \in \mathbb{R}^{1 \times N}$ 可以通过岭回归如公式(3)所述获得。根据上述预测公式(5)和岭回归(3)，2D-ESN提供了一种输出权重尺寸为2N而不是ESN所提供的M×N尺寸，其中M是图像的垂直像素数（深度）。

当2D-ESN使用公式(4)和(5)按图5所示顺序处理图像中的点时，实际上在当前处理的点与之前所有左上角点之间建立了连接，以水平和垂直方向捕捉图像的动态特性。通过2D-ESN，每个GPR B-扫描图像段可以通过“下一个项目预测”任务从未空间映射到模型空间。通过GPR B-扫描图像段拟合得到的预测模型指示了该图像段在模型空间中的映射点。直观地说，拟合的2D-ESN模型之间的差异反映了相应训练数据的动态特性差异。下一部分将介绍模型空间中测量模型差异的方法。

从实际应用需求的角度来看，实时诊断结果可以帮助定位和修复地下异常。在2D-ESN中，拟合模型时只需要通过岭回归求解 $W_{yh1}, W_{yh2} \in \mathbb{R}^{1 \times N}$ ，确保了将数据映射到模型空间的过程的速度和效率。此外，2D-ESN占用的内存有限，这有助于在现场应用中使用个人计算机进行实时诊断。

IV. 基于模型空间的GPR图像诊断

本节中，在构建的模型空间中修改了2D-ESN模型之间的距离测量方法。基于构建的模型空间和距离测量方法，介绍了包括半监督和监督算法在内的模型空间中的学习方法，用于地下诊断。

A. 测量两个2D-ESN之间的距离

通过2D-ESN将GPR B-扫描图像映射到模型空间后，应定义拟合的2D-ESN模型之间的距离，以测量模型之间的差异。模型 $f_1(x)$ 和 $f_2(x)$ （ $f_1, f_2 : \mathbb{R}^{N \times 2} \rightarrow \mathbb{R}$ ）之间的 $m$ -范数距离可以定义如下：

$L_m(f_1, f_2) = \left( \int_C D_m(f_1(x), f_2(x)) d\mu(x) \right)^{\frac{1}{m}},$

其中 $D_m(f_1(x), f_2(x)) = \|f_1(x) - f_2(x)\|^m$ 是测量 $f_1(x)$ 和 $f_2(x)$ 之间差异的函数， $\mu(x)$ 是输入域x的概率密度函数，C是积分范围。在本文中，我们采用 $m = 2$ ，并首先假设x是均匀分布的。

对于两个不同的2D-ESN模型， $f_1(x)$ 和 $f_2(x)$ 可以由以下方程表示：

$f_1(h) = W_{yh1} h + a_1, \quad f_2(h) = W_{yh2} h + a_2,$

其中 $h = [h(i - 1, j), h(i, j - 1)]^T$ 是上方和左方点的隐藏状态， $W_{yh} = [W_{yh1}, W_{yh2}]$ 是输出权重， $a$ 是输出模型的偏置向量。

将(7)代入(6)，可以得到以下方程：

$L_2(f_1, f_2) = \frac{1}{3} \|W_{yh1} - W_{yh2}\|^2 + \|a_1 - a_2\|^2,$

其中 $L_2(f_1, f_2)$ 是两个2D-ESN之间的获得距离。通过(8)，可以测量任意两个2D-ESN之间的距离。因此，可以利用基于距离的算法在模型空间中进行分类。

B. 模型空间中的模型诊断

在实际应用中，获得的GPR数据的特征以及可能存在的地下异常结构在分析GPR数据之前很少被认识。在这种情况下，半监督学习（单类学习）被用于模型空间中的实时地下诊断。在本文中，使用One-Class SVM (OCSVM) [44]来寻找一个超平面，该超平面在核特征空间中与给定训练样本（即拟合的模型）的起点具有最大的距离，使得落在超平面之外。具体来说，通过2D-ESN将一些正常道路的GPR B-扫描图像段映射到模型空间，并训练一个正常的OCSVM分类器。然后，对于随后拟合的模型，使用从正常模型训练得到的OCSVM分类器进行持续分类，并将被分类为异常的模型放入异常集合。由异常数据拟合的模型可以通过增量单类学习[28]进一步训练。图8展示了单类学习和增量单类学习。

对于监督分类任务，即当已经存在与地下环境相似的数据用于模型空间映射或训练时，可以使用K-最近邻(KNN) [45]、随机森林[46]和支持向量机(SVM) [47]等分类算法在构建的模型空间中进行分类。

V. 实验研究

在本节中，我们在真实世界的数据集上进行了实验。之后，展示了实验结果的分析以及一些比较性工作。

A. 在真实世界数据集上的实验设置

为了评估所提出模型的有效性，我们在三种不同类型的道路上收集的GPR图像上进行了实验，包括水泥、沥青和未铺砌的道路。通过GSSI-SIR30 GPR获得了10组GPR B-扫描图像。GSSI SIR-30 GPR沿着道路部署，并配备GPS记录相应的位置。使用的设备和检测情况如图9所示。

收集到的数据已经过人工分类，一些存在地下异常的部分位置已经被挖掘和修复。为了消除噪声和突出地下结构，对获得的GPR B-扫描图像进行了一些操作，包括三个任务：1）消除地面回声的不希望存在；2）降低噪声；3）补偿传播损失。首先，预先消除地面的反射。这项工作得到了Matgpr [48]的支持，它是一个用于分析公共偏移GPR数据的免费Matlab软件包。然后执行基于标准中值滤波器的滤波步骤 [49] 以减少电磁噪声和干扰。最后，考虑到由于介质衰减和信号能量径向扩散引起的传播损失，对接收信号应用了非线性时变增益 [50]。上述操作已在我们的先前工作 [14] 和 [51] 中介绍和评估，具有相当的降噪效果。因此，本文不再展开。

在将GPR数据从未空间映射到模型空间时，滑动窗口的长度设置为300像素（每个像素之间的距离约为0.014米）。对于2D-ESN，由于当前位置是否存在异常不会受到长期之前路段的很大影响，因此水库的谱半径设置为0.1。在映射了窗口中的每个GPR B-扫描图像之后，进行了半监督学习任务和监督学习任务。

在我们的实验中，如果没有可识别的地下异常结构存在于窗口中，则将窗口数据标记为正常。否则，它被标记为存在的异常结构的类型。对于一组处理过的GPR B-扫描图像段，假设对于每种分类数据，正确分类数据的数量为 $N_{tp}$ ，错误分类数据的数量为 $N_{fp}$ 。同样，将被分类为其他类型的数据视为一个整体，正确分类和错误分类的数据数量分别为 $N_{tn}$ 和 $N_{fn}$ 。然后，通过公式(9)计算该类型数据的精确度、召回率和F1值。评估方法的精确度、召回率和F1值是通过所有类型数据上的上述评估标准的均值估计的。

$\text{精确度} = \frac{N_{tp}}{N_{tp} + N_{fp}}, \quad \text{召回率} = \frac{N_{tp}}{N_{tp} + N_{fn}}, \quad F1 = 2 \times \frac{\text{精确度} \times \text{召回率}}{\text{精确度} + \text{召回率}}$

B. 在构建的模型空间中半监督学习和监督学习的结果

对于半监督学习，我们分别对每种类型的道路进行了实验。首先为每种类型的道路选择了长度为3000的正常道路GPR B-扫描图像的一部分。然后，使用滑动窗口在图像上以20的间隔生成一系列正常数据段，这些数据段由2D-ESN拟合。获得的2D-ESN模型用于训练OCSVM。沿着道路获得的剩余GPR图像将逐渐被滑动窗口分割并送入2D-ESN以获得相应的模型。然后，该模型通过训练好的分类器被分类为正常或异常。此外，如果可以细分道路的异常，则使用增量单类学习来对未知异常进行分类。

图10显示了将GPR数据从数据空间映射到模型空间后OCSVM分类的一些结果。图11展示了一些已识别的异常数据。为了直观显示模型空间中的分类效果，使用t-分布随机邻域嵌入（t-SNE）[52]将获得的模型降低到三维进行可视化。需要指出的是，实际的模型空间远超过三维。在模型空间中，可以观察到数据通过蓝色和红色点清楚地被划分为正常和异常。

如前所述，在对同一种类型的异常数据执行OCSVM之后，我们可以通过增量OCSVM进一步分类其在模型空间中映射的值。图12展示了使用增量OCSVM对从数据空间映射到模型空间的GPR图像进行分类后的结果，以及每个类别的代表性GPR图像。直观地看，在模型空间中，不同地下结构的GPR图像被聚集成四个类别。完成异常分类后，由于图像中一些异常区域的长度超过了滑动窗口的长度，因此通过合并被识别为包含异常的重叠GPR图像段来获得最终的异常GPR图像。值得注意的是，少数被识别为其他类型的GPR图像段出现在已被分类为同一种异常类型的连续段流中。在这种情况下，我们使用“投票”方法来确定这些段的类型。具体来说，我们将被识别为其他类型的少数段分类为多数类型，并且根据多数类型标记合并后的GPR图像。图13展示了一些合并后的图像。具体结果将在以下部分展示。

由于本文收集的数据已经过人工分类，并且一些存在地下异常的部分位置已经被挖掘和修复。监督学习任务也可以在构建的模型空间中使用。在获得的真实世界数据中，如图11(a)所示，沿着每个正常路段收集的GPR图像是相似的，而异常的数量少于正常图像。对于监督学习，我们从10组中总共选择了约4000个GPR图像段，其中约2500个是正常的，约1500个是由地下异常生成的。然后，进行了10折交叉验证实验。具体来说，每次选择10组中的一组GPR图像段作为测试集，其余9组的GPR图像段用作训练集。在模型空间中使用了几种代表性的监督学习方法，包括KNN [45]、随机森林 [46]和SVM [47]。模型空间中半监督和监督学习任务的具体结果分别列在表I和表II中。

在我们的实验中，无论是监督学习还是非监督学习，本文提出的方法不需要大量或多种类型的数据进行训练。错误分类主要来自于窗口数据，这些数据刚刚从正常部分过渡到异常部分，或者即将离开异常部分，如图14所示。这种窗口中的数据将在模型空间中映射到“过渡点”，如图15所示。这些过渡点反映了模型空间方法对异常的敏感性，但在一定程度上，当滑动窗口穿过两个或多个相邻异常时，这种现象会导致混淆。因此，可以对模型空间中的点的轨迹进行进一步研究，以提高异常分类的准确性。此外，在实际应用中，定位数据可能会出错。例如，在城市中高大建筑物和树木的情况下，GPS的卫星定位信号可能会被阻挡[53]。在测量粗糙或滑腻的地面时，里程表的定位精度会降低[54]。因此，使用略大于异常区域范围的范围来定位地下异常，可以帮助在处理GPR图像后找到真实世界的异常。

C. 比较与分析

本小节进行了比较性工作和分析，包括将所提出的方法与其他最先进的方法进行比较，基于模型空间学习框架比较ESN和所提出的2D-ESN，分析2D-ESN的不同谱半径、迭代方向以及不同窗口大小的效果。

与其他方法的比较与分析：为了评估所提出方法的效率和有效性，将所提出的方法在监督学习任务上与其他方法进行了比较，包括Histograms of Oriented Gradient (HOG) [55]、Deep Residual learning (ResNet) [56]和AlexsNet [57]。所比较的方法（HOG+SVM, AlexsNet, ResNet-18）可以直接将GPR B-扫描图像段分类为类别。所提出的方法首先使用2D-ESN拟合GPR图像段，然后使用KNN在模型空间中对拟合的2D-ESN模型进行分类。具体的比较结果列在表III中。

Histogram of Oriented Gradient (HOG) [55] 是一种用于图像处理中的对象检测的特征描述符。在本文中，使用32×32大小的单元格的HOG来提取窗口数据的特征。然后，使用SVM在HOG特征空间中进行分类。该算法统计了图像的局部部分中梯度方向的出现次数，主要关注轮廓信息。然而，GPR B-扫描图像是通过水平排列接收到的电磁波，在时间或空间关系中，并用相应的灰度值表示波强度来生成的。因此，它不仅在水平方向上具有检测时间或位置的连续性，而且由于地下介质和电磁波的连续性，在垂直方向上也存在相关性。GPR图像的诊断应该将GPR图像视为一个整体，并考虑两个方向上的连续性和变化规律，而不仅仅局限于图像的轮廓信息。所提出的方法通过使用设计的2D-ESN模型拟合图像来捕捉变化规律，即GPR图像的动态特性。图16显示了拟合的2D-ESN模型和HOG特征的比较示例。可以观察到，HOG中蓝色（正常）和黑色（异常1）的点是交织在一起并且难以分离的。直观地说，模型空间中由不同类型的GPR图像拟合得到的模型显示出更大的类间距离。结果如表III所示，HOG具有高计算效率，但召回率有限。

对于AlexNet和ResNet-18，深度学习方法通常具有大规模参数，并通过梯度下降算法逐渐收敛模型，对训练数据的数量、格式和质量提出了要求，以及不可忽视的离线训练时间和计算资源。在地下诊断中，地下环境可能是多变的，收集和标记足够数量的相同或相似地下环境的训练数据可能很困难，甚至是不可能的。这导致召回率相对较低，因为网络无法得到很好的训练。然而，所提出的方法更侧重于数据的内部动态特性，并且只使用岭回归来拟合数据，加上在模型空间中使用成熟高效的基于距离的分类器，如KNN和SVM。可以从图16(a)观察到，由相同类型的地下结构生成的GPR图像在模型空间中被转换为相似的2D-ESN模型。相反，由一种类型的地下异常拟合的模型与正常模型或其他类型的异常模型有显著差异，因为它们具有不同的动态特性。
在ESN和2D-ESN模型空间中的学习比较：为了评估2D-ESN与原始ESN在GPR图像地下诊断任务中的有效性，都在监督学习任务中执行了ESN和2D-ESN。根据表IV中的结果，2D-ESN在这项任务中表现更好，因为它充分捕捉了水平和垂直方向上的动态特性，更符合GPR图像中的规律变化。ESN的性能随着水库的增大而提高，但即使使用较大的水库，ESN模型空间中的分类性能也不如2D-ESN。此外，ESN模型的大小与水库的大小呈线性增长。较大的水库在处理GPR B-扫描图像时会导致模型尺寸过大，运行时间更长，占用更多的内存。然而，2D-ESN逐点处理数据，在数据内部建立双向连接，并且在适当尺寸的水库中就可以在拟合的2D-ESN模型空间中获得满意的结果。因此，对于GPR图像中的地下诊断，所提出的2D-ESN与原始ESN相比，可以在更短的运行时间内获得更好的结果，并且占用的内存要小得多。

不同谱半径下2D-ESN的效果：在GPR图像中，电磁波和地下介质都存在连续性。然而，异常可能会出现得很突然，当前是否出现异常不会受到长期之前处理过的数据的很大影响。因此，选择了较小的谱半径以确保当前处理的数据与附近数据相关，但不受更远数据的很大影响。我们还评估了不同谱半径对监督学习任务的影响，所获得的结果列在表V中。

从结果中可以观察到，对于地下诊断，较大的谱半径对结果有相对较大负面影响。选择较小的谱半径不仅考虑了GPR图像中存在的连续性，而且对突然异常更敏感。
逐列或逐行迭代方向的分析：在实际应用中，地下检测是沿着道路进行的。根据图3，收集的GPR B-扫描图像的每一列都是接收到的电磁波的表示。因此，GPR图像的垂直方向被称为当前时刻和位置的检测。GPR图像的水平方向指的是检测方向，GPR沿着这个方向移动。因此，GPR图像是逐列收集的。为了评估2D-ESN在逐行和逐列方式中的效果，分别进行了监督学习任务。所获得的结果列在表VI中。

从结果中可以看出，逐行和逐列之间没有太大差异。如果我们将每个GPR图像段视为一个独立的数据样本，无论哪种方式，2D-ESN都会在图像内部建立水平和垂直连接。此外，逐列方式更符合现实世界的检测，它在我们的方法中被采用。
不同窗口大小的分析：滑动窗口的大小在这个任务中值得关注。首先，2D-ESN将窗口中的GPR图像视为一个整体，并通过捕捉数据内部的动态特性来拟合数据。类似于ESN和其他水库计算方法[28]，[33]，2D-ESN需要迭代以确保充分捕捉GPR图像的动态特性，并且稳定模型（由于隐藏层的随机性）。因此，窗口的大小不应该太短。其次，如图17所示，为了充分提取地下异常的GPR图像以进行后续分析或修复，最终的地下异常是通过合并被识别为包含异常的重叠图像段获得的。因此，过长的窗口可能会导致合并后异常范围过大。此外，较大的窗口还会导致更长的拟合时间。

为了评估不同窗口大小的影响，我们使用不同的窗口大小进行了监督学习任务。所获得的结果列在表VII中。可以发现，当窗口大小达到300时，精确度、召回率和F1分数达到了较高水平，并且随着窗口大小的增大，它们不会显著增加。

VI. 结论

在本文中，提出了一种基于模型空间学习的GPR B-扫描图像诊断方法。构建了一个滑动窗口，并在获得的GPR图像上滑动。每个滑动窗口中的GPR图像通过所提出的2D-ESN映射到模型空间。在构建的模型空间中修改了2D-ESN的距离测量方法。基于构建的模型空间和距离测量方法，可以利用监督和半监督算法来识别或分类GPR B-扫描图像上的异常。所提出的2D-ESN考虑了GPR B-扫描图像在水平方向上的位置和时间连续性以及垂直方向上的介质连续性。因此，所提出的2D-ESN从点级别处理图像，可以有效地降低拟合模型的维度，从而减少内存使用。应用所提出的方法时，只需要正常GPR图像段（即没有地下异常）的检测区域即可开始诊断。在真实世界数据集上进行了实验，模型空间中的监督学习和半监督学习都取得了相当的结果。在未来的工作中，我们计划将2D GPR B-扫描图像扩展到多维相关数据，并为这些数据设计模型，以实现从数据空间到模型空间的高效映射。另一方面，我们将研究模型空间中的模型变化轨迹（即模型空间中的点的轨迹）并设计异常警告算法。

声明

本文内容为论文学习收获分享，受限于知识能力，本文队员问的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

小白学视觉

关注

12
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
TPAMI 2024 | 基于GPR和模型空间学习的地下诊断

地面穿透雷达（GPR）已广泛应用于管道检测和地下诊断。在实际应用中，通常在完全分析获得的GPR数据之前，很少了解被检测区域的GPR数据特征和可能存在的地下异常结构，这导致了自动识别地下结构或异常的挑战。在本文中，提出了一种基于模型空间学习的GPR B扫描图像诊断方法。模型空间学习的思想是使用在数据部分拟合的模型作为数据更稳定和更简洁的表示。对于GPR图像，提出了2方向回声状态网络（2D-ESN），通过下一项预测拟合图像段。
复制链接

扫一扫