论文学习记录之《 Unbalanced graph isomorphism network for fracture identification by well logs》

1、基本介绍

  标题:《Unbalanced graph isomorphism network for fracture identification by well logs》——基于测井数据的非平衡图同构网络裂缝识别方法

  作者: Ning Ma,Shaoqun Dong,Lexiu Wang,Lexiu Wang,Lexiu Wang, Shuo Liu

  实验团队:中国石油大学石油资源与工程国家重点实验室(北京),中国石油大学理学院(北京)

  期刊:Expert Systems With Applications——ESWA(2025年分区表:一区Top)

  时间:Received 9 January 2024; Received in revised form 8 November 2024; Accepted 13 November 2024 Available online 17 November 2024(2024年1月9日收到;2024年11月8日收到修订版;接受日期:2024年11月13日;在线发布日期:2024年11月17日)

  摘要:裂缝识别与预测对于致密油气藏的开发具有重要意义。裂缝的高角度限制了其可追踪性,减少了钻井交点,导致显著的数据不平衡,使得裂缝识别成为一个非平衡分类问题。岩性和流体性质可能在裂缝样本中造成相似特征,常常导致非线性关系和非欧几里得结构。这种复杂性使得裂缝识别成为一个非线性过程。为解决这一问题,本文引入了非平衡图同构网络(UGIN)算法。该方法利用图同构网络(GIN),并在裂缝识别过程中引入了专为非平衡样本设计的二元交叉熵损失函数,旨在通过对分类错误的裂缝样本赋予更高的惩罚,调整模型对少数类样本的关注,从而提高非平衡数据集的检测精度。识别过程分为三个阶段:首先,利用序列边缘方法将样本测井相似性信息集成到图结构中;其次,通过GIN算法对节点级信息进行嵌入,并使用K-均值对节点进行聚类,以得到局部图的嵌入表示;最后,利用模型对节点进行分类。为验证UGIN算法的有效性,本文采用了扎格罗斯山脉褶皱带A油田的裂缝碳酸盐岩储层数据集。通过交叉验证,结果表明该算法在训练集和测试集上均表现出良好的泛化能力,AUC评分达到0.938,高于基准模型。在测试数据上的分类准确率达到了96.7%,在识别裂缝样本方面表现出色。为评估不同图构建方法对UGIN性能的影响,本文比较了K-均值聚类法、层次聚类法、综合连通法、增强链接策略和序列边缘方法。结果表明,序列边缘方法表现最佳,最大限度地保留了测井特征中的深度相关信息,增强了样本嵌入。

  关键词: Unbalanced graph neural network、Fracture identification、Graph construction、UGIN、Conventional well logs——(非平衡图神经网络、裂缝识别、图形构造、UGIN、常规测井)

2、介绍

  裂缝是致密碳酸盐岩储层(Zeng等,2022)中油气的重要流动通道,对提高储层渗透率贡献显著(Li等,2022;Wang等,2021)。准确识别裂缝对于致密储层的勘探开发至关重要(Aghli等,2019;Dong等,2020;Wang等,2021)。

  岩心观察与描述可提供地下储层裂缝发育研究的一手信息(Aghli等,2019;Zhang等,2021),但地下取心成本高且数据量有限。成像测井精度高,能显示井周裂缝的二维分布(Dias等,2020;Li等,2019;Taibi等,2019),但同样成本高昂且数据有限。常规测井资料在多数井中均有获取且成本较低(Barham和Abidin,2023)。常用的常规测井包括用于岩性识别的伽马测井、用于流体含量的电阻率测井、用于孔隙度和力学特性的声波测井、用于岩石密度和孔隙度的密度测井,以及用于氢含量和气液分异的中子测井等(Aghli等,2019)。这些测井测量自然放射性、电阻率、声波速度和密度等关键地球物理响应,为地下特征描述提供必要数据(Hasan和Tóth,2024;Shalaby和Islam,2017)。裂缝会改变地下岩石的储层物理性质,导致常规测井响应发生变化,如裂缝带声波传播时间增加、密度降低(Aghli等,2020;Lyu等,2016)。因此,常规测井可用于辅助裂缝识别与解释(Aghli等,2019)。

  用于裂缝识别的测井数据包含多个特征,且特征间存在高度非线性关系。例如,在特定应力和流体条件下,声波传播时间与裂缝密度之间可能存在非线性递增趋势,而在其他条件下,这种趋势可能减缓甚至逆转。在裂缝识别测井数据分析中,非线性关系源于裂缝特征与岩性、流体类型和孔隙压力等影响因素之间的复杂相互作用(Lu等,2024)。具体而言,裂缝发育与表现并非由单一因素决定,而是多个相互依赖参数协同作用的结果。例如,不同岩性在应力作用下表现出不同的裂缝分布,而流体性质(如黏度和饱和度)进一步改变裂缝导流能力和声波传播特性。这些相互作用导致测井数据中出现多维非线性关联。此外,裂缝数据特征并非独立,例如,在多尺度裂缝发育的地层中,小尺度裂缝与大尺度裂缝之间的关系往往呈现复杂的非线性嵌套。这种结构增加了有效区分裂缝发育特征的难度(Venkatesh等,2020)。因此,裂缝识别是一个典型的非线性分类问题,揭示常规测井与裂缝之间以及常规测井之间的非线性关系是亟待解决的挑战(Delavar,2022;Dong等,2020)。

  此外,由于裂缝通常具有高角度且以垂直井为主,裂缝在平面上的网络轨迹相对于储层体积而言极小,降低了钻井过程中与之相交的可能性。因此,无裂缝井段更为普遍,导致裂缝样本与非裂缝样本数量之间存在显著不平衡。这种不平衡使裂缝识别成为一个典型的非平衡分类问题(Nguyen等,2021;Qin等,2024)。

  解决上述非线性和非平衡分类挑战对行业而言至关重要。第1.1节回顾了用于解决非线性分类问题的各种机器学习技术,第1.2节考察了处理数据不平衡的数据层面和算法层面方法。基于这些见解,第1.3节提出并阐述了用于裂缝识别的方法,突出了其创新贡献。

2.1 断裂识别的机器学习方法

  机器学习方法的快速发展为解决测井裂缝识别问题提供了契机。根据是否使用现有的裂缝解释数据,用于该任务的人工智能方法可分为三类:无监督学习、监督学习和半监督学习(Dong et al., 2020)。

  无监督方法要么基于不同测井数据的属性结构将样本聚类成组(Dong et al., 2018),要么利用常规测井数据构建裂缝指示参数来检测裂缝带(Lyu et al., 2016)。无监督聚类方法不使用标签信息(Esmaili and Mohaghegh, 2016; Nouri-Taleghani et al., 2015)。对于指示方法,从岩心或成像测井获得的裂缝标签仅提供定性指导(Massiot et al., 2017)。总体而言,对于裂缝带的识别,无监督方法中标签的影响比监督方法中的标签影响弱。已有几项关于使用无监督方法进行裂缝识别的研究发表。研究利用常规岩石物理测井和差分方法检测裂缝带,结果表明利用一阶和二阶导数识别裂缝带的效果最佳(Aghli et al., 2019)。通过分析裂缝与常规测井之间的关系,推导出用于裂缝识别的综合指数(CI)(Lyu et al., 2016)。联合测井被用于检测苏伊士湾南部Matulla组地层的裂缝带,该研究采用了次生孔隙度指数(SPI)、自然伽马能谱(NGS)、双感应-MSFL分离、岩石密度、补偿中子测井和变密度测井(VDL)(Shalaby and Islam, 2017)。

  监督学习方法使用常规测井数据和相应的标签(是否存在裂缝)进行裂缝检测。标签从岩心分析或成像测井获得,并用于训练预测模型。该方法假设有足够的标记数据来训练裂缝识别模型,从而获得具有较强泛化能力的分类器(Ding et al., 2017)。显然,标签提供的信息可以提高监测方法识别裂缝的准确性(Xue et al., 2014)。许多关于裂缝识别的已发表工作使用了不同形式的监测方法。结合小波分解、Parzen分类器和乐观有序加权平均(OOWA)用于检测伊朗西南部某油田Asmari油藏的裂缝带(Tokhmchi et al., 2010)。引入自适应神经模糊推理系统(ANFIS),利用包括声波时差(DT)、密度(DEN)、中子孔隙度(NPHI)和深电阻率在内的岩石物理测井数据预测井筒裂缝密度(Ja’Fari et al., 2012)。应用遗传算法和误差反向传播(GA-BP)神经网络,利用深、浅电阻率测井的幅度和差值检测松辽盆地新立油田的裂缝(Xue et al., 2014)。开发了委员会机器智能系统(CMIS),用于根据伊朗Marun油田的常规测井数据预测裂缝密度(Nouri-Taleghani et al., 2015)。提出裂缝度量(FM)定量指示器来描述裂缝,根据裂缝的不同孔径、方向和位置计算频率调制(Mazaheri et al., 2015)。然后,利用人工神经网络(ANN)估计频率调制以检测裂缝带。采用希尔伯特-黄变换(HHT)从声波测井数据中提取各种特征,并利用GA-SVM模型预测鄂尔多斯盆地碳酸盐岩储层的裂缝密度(低、中、高)(Khan et al., 2018)。通过岩心和电阻率测井数据的直接解释验证了模型的正确性和有效性。

  反向传播神经网络(Lin and Bruwer, 2016)是一种有效的天然裂缝预测方法。该方法应用于新立油田阜阳砂岩油藏,选择优化的标准样本训练遗传算法反向传播神经网络(Nikbin et al., 2017),从而建立目标储层裂缝预测模型。提出了将人工神经网络技术在预测分形维数和裂缝密度中的有效应用,利用FORTRAN语言建立了神经网络系统(Shafiq and Azim, 2021)。该系统利用反向传播算法作为学习过程,并采用Sigmoid函数进行输出预测。在测井解释中,使用单一常规测井曲线识别复杂的非均质储层类型一直具有挑战性。为解决这一问题,首次揭示了循环神经网络在非均质储层识别中的优势,进而提出具有最优参数的双向长短期记忆循环神经网络储层分类模型,充分利用测井序列信息(Arbane et al., 2023)。此外,提出了一种利用常规测井和地震反射数据识别储层天然裂缝的深度学习模型。该模型预测裂缝孔径和裂缝密度,并通过地震反演进一步预测岩性、孔隙度和裂缝参数的空间变化。提出了一种结合BERT(在大量无监督数据上预训练的转换器网络)的强大功能和BiGRU(双向门控循环单元)的方法。该方法能够捕捉文本中的序列依赖性以提取关键信息,从而实现对整个文档上下文的全面理解。在测井裂缝识别中,该方法能够有效识别裂缝的空间关系(Bano et al., 2023)。

  无监督学习方法仅根据测井数据的数据结构特征进行聚类,从而促进裂缝预测(Intxausti et al., 2024)。这种方法在成像测井图像分割领域较为常用,主要用于提取裂缝图像。监督学习方法利用大量标记测井数据训练适合裂缝识别的模型。由于增加了裂缝的先验信息,其预测效果往往优于无监督学习(Mahjour et al., 2024)。该方法应用于成像测井、阵列声波测井和常规测井以识别裂缝。监督方法表现出相对较高的预测精度,但其性能受到可用训练样本的数量和质量的限制(Nixon et al., 2024)。在实际应用中,训练样本数量有限,严重限制了这类方法的准确性(Aghli et al., 2019)。半监督学习方法是解决这一问题的一种方法。它集成了聚类和分类,能够综合利用少量标记样本和大量未标记样本。目前,该方法在图像处理和常规测井裂缝识别领域表现突出(Dong et al., 2020)。

2.2 处理不平衡数据的方法

  近年来,许多学者针对不平衡数据的分类问题提出了多种改进算法。改进的主要方向可归纳为以下两点:一是从数据层面出发,二是从算法层面入手(Jaesub 和 Jong-Seok,2024)。

  在数据层面,通常会对数据进行一定操作以实现平衡分布,在二分类任务中,这意味着使训练集中的正负样本数量大致相等(Wang 等,2024)。常见的采样方法分为三类:过采样、欠采样和混合采样(Siyamalan,2024)。尽管过采样和欠采样都容易受到噪声和边界样本的影响,但欠采样往往会导致显著的数据丢失,并破坏数据集的原始特性。而过采样则聚焦于少数类样本,这类样本对决策者来说往往具有特殊意义。因此,与欠采样相比,过采样具有更广泛的应用场景(Ahmed 等,2022)。SMOTE(合成少数类过采样技术)是一种著名的过采样方法,它通过少数类样本之间的随机线性插值来合成新的少数类样本,从而实现数据平衡(Chawla 等,2002)。此外,一些学者也提出了针对 SMOTE 的改进算法(Bunkhumpornpat 等,2012)。D-SMOTE 算法通过寻找最近邻样本的平均点来生成人工样本(Grid 等,2020)。具有边界约束的范围控制合成少数类过采样技术(RCSMOTE)计算属性范围,整合微分计算,并设计了一组新的合成公式。然而,它在高维属性数据上运行速度相对较慢(Soltanzadeh 和 Hashemzadeh,2021)。此外,一些自适应过采样方法也相继被提出,具有代表性的算法包括安全级别 SMOTE 算法(Safe-Level-SMOTE)(Bunkhumpornpat 等,2009)和自适应合成采样(ADASYN)(He 等,2008)。

  在算法层面,通过优化和改进传统分类算法,提升了分类算法在不平衡数据上的性能和效率(Taherkhani 等,2020)。算法层面关于不平衡数据分类的主要研究包括代价敏感模型和集成学习模型(Kurniawati 等,2024)。代价敏感学习通过加权改进分类算法的结构,突出错误分类导致的代价差异,提升分类性能(Iosifidis 等,2023;Mahboubeh 等,2022)。代价敏感学习可以与 AdaBoost 和 Bagging 等传统集成方法相结合,有效降低误分类代价,提升整体分类性能(Ali 等,2016)。代价敏感深度神经网络(CoSen)能够在不改变原始数据分布的情况下,自动学习多数类和少数类的鲁棒特征表示(Khan 等,2018)。集成学习通过构建多个分类器并组合其预测结果来提升分类器的性能(Bjurgert 等,2018)。它能够提升少数类的识别率,从而增强分类器的性能。自适应提升(AdaBoost)算法根据初始训练结果调整样本权重,然后训练获得一些弱预测器,并通过弱预测器的线性组合构建强预测器(Ravikumar 等,2023)。

  除了上述数据层面和算法层面的处理方法外,近期的方法还将图神经网络纳入解决数据不平衡问题的框架。一种方法利用类条件对抗正则化和潜在分布对齐正则化来解决类不平衡表示学习问题,但它在扩展到大型图时面临挑战(Shi 等,2020)。另一种方法通过采用标签平衡采样器来选择节点和边以训练子图,并采用邻居采样器来选择邻居以缓解标签不平衡,将类不平衡表示学习扩展到大型图(Liu 等,2021)。然而,由于浅层限制,这种方法难以捕捉评论之间的深层特征。还有一种方法以统计分类作为基础分类器,应用数据重采样和网格搜索技术来降低数据不平衡的影响,最后通过集成模型提升模型的鲁棒性(Yao 等,2021)。

2.3 裂缝识别方法及其创新性研究

  针对裂缝识别中非线性特征关系与标签数据不平衡的技术挑战,本文创新性地提出一种基于非均衡图同构网络(Unbalanced Graph Isomorphism Network, UGIN)的裂缝识别新方法

  传统测井裂缝识别涉及多类特征且存在强非线性关联。这些特征间的非线性关系表明,用于裂缝识别的样本点并非孤立存在,而是蕴含特定的图结构信息,相邻节点特征间存在交互关系。在3.2节构建图结构时,充分考虑了具有相似深度序列距离的样本间特征的凝聚性和相似性,并与目标样本相邻的一阶样本建立关联关系。

  此外,在致密储层中裂缝分布通常受限,仅占总体积的较小比例(Ghezelbash等,2020)。因此,使用传统测井数据时,非裂缝标记数量远超裂缝标记,导致裂缝识别数据严重失衡。这种数据不平衡现象对裂缝识别任务的预测结果产生显著影响。在3.3节中,基于互信息最大化思想,UGIN算法对二元交叉熵损失函数进行改进,更加关注少数类样本情况,改进传统联合训练方法,采用解耦训练提升样本嵌入效率。

  本文的核心贡献如下:1)基于二元交叉熵损失,改进互信息最大化损失函数,增强分类过程中对少数类节点的关注2)采用改进的解耦训练方法进行模型训练,提升样本嵌入效率3)基于测井特征,研究并提出五种图构建方法,通过实验对比五种方法的裂缝识别效果并分析其优缺点

  本文所用数据详见第2节,第4节重点进行包括对比实验和图构建方法实验在内的实验分析。此外,模型还使用盲井数据进行裂缝预测,进一步验证了模型在裂缝识别中的优异性能。第5节开展了一系列讨论,包括解耦训练实验和消融研究等。

3、数据采集与描述

  本数据集源自扎格罗斯山脉褶皱带A油田,该油田以发育大量裂缝的致密碳酸盐岩储层为特征。如图1(a)所示,该油田西临美索不达米亚平原,东接伊朗高原(Al-Banna, 2008;Ghanadian等, 2017;Le Garzic等, 2019)。

  目标储层为古近纪渐新世-新近纪中新世阿斯马里组碳酸盐岩,如图1(b)所示。根据岩心和薄片观察描述,白云岩和石灰岩是主要岩性,还含有少量硬石膏、砂岩、泥岩等(Luo等, 2019)。储层形成于被浅海覆盖的浅海、宽阔且相对平坦的区域。阿斯马里组自上而下可分为A、B、C、D四个段。其中,A段和B段为主力产层,A段沉积相为局限台地(相对浅水),B段为半局限台地(相对深水)。A段由白云岩和硬石膏团块组成,B段主要由石灰岩、硬石膏团块、泥岩和砂岩组成。A段和B段的厚度范围分别为50-85米和80-150米。B段的平均孔隙度(16.8%)和渗透率(10.6×10⁻³μm²)均高于A段(8.7%和268.5×10⁻³μm²)。值得注意的是,A段的裂缝发育程度高于B段(Du等, 2021)。

在这里插入图片描述

图1 A油田位置及目的层位(Dong等,2022)

  扎格罗斯山脉是在阿拉伯板块与欧亚板块持续碰撞产生的北东-南西向巨大水平挤压构造应力作用下快速隆升形成的(Ala等, 1980)。受挤压应力影响,油田呈现北西-南东向背斜构造。西部发育北西-南东向走滑断层,中部以北北西-南南东向正断层为主。随后,目标储层内部广泛发育裂缝,对石油生产产生显著影响(Dong等, 2022)。

表1 术语缩写

在这里插入图片描述
  该数据集包含1851个样本,分为裂缝(Fracture)和非裂缝(Non-Fracture)两类标签,两类样本的比例分别为6.6%和93.4%。每个样本代表特定深度的地层岩石,具有9个特征(常规测井曲线):伽马射线(GR)、井径(CAL)、补偿中子测井(CNL)、补偿密度(DEN)、声波时差(AC)、光电吸收截面指数(Pe)、深电阻率(RD)、浅电阻率(RS)和冲洗带电阻率(RXO)。这些测井曲线由斯伦贝谢公司记录,测井范围列于表2。约80%的标签样本被分配为训练数据,用于开发裂缝预测模型,其余20%作为测试数据,用于评估模型性能。

表2 研究区常规测井数据统计特征

在这里插入图片描述

  为解决测井特征数据分布范围差异大的问题,采用0-1归一化方法对特征进行标准化处理。该方法将不同数量级或数据差异的特征转换为同一水平的数据,可用公式(1)表示:
X = X − m i n ( X ∗ ) m a x ( X ∗ ) − m i n ( X ∗ ) (1) X = \frac{X - min(X^{*})}{max(X^{*}) - min(X^{*})} \tag{1} X=max(X)min(X)Xmin(X)(1)
其中, X X X表示归一化后的数据, X ∗ X^* X表示原始数据; m i n ( X ∗ ) min(X^{*}) min(X)表示数据的最小值, m a x ( X ∗ ) max(X^{*}) max(X)表示数据的最大值。

4、方法

4.1 基于UGIN算法的裂缝识别工作流程

  采用非平衡图同构网络(UGIN)算法进行裂缝识别的流程如图2所示,主要包括图结构构建和簇级表示。

  第一步,输入标注有岩心信息的常规测井数据。数据归一化后,将标注的常规测井数据按一定比例(例如80:20)随机划分为训练集和测试集。训练样本用于训练UGIN模型,测试样本用于验证模型的适用性。数据集描述和预处理方法将在第2节中详细介绍。

  第二步,采用序列边方法生成图结构信息,详见第3.2节。随后,应用K-Means算法将整个图聚类为K个局部子图。根据聚类结果更新节点级和簇级表示。然后利用图同构网络(GIN)编码器生成节点嵌入和局部图嵌入,详见第3.3节。

  最后,基于分类器的UGIN算法获得样本的预测概率得分,并采用一种将GIN特征嵌入编码与分类过程解耦的训练方法,训练模型的相关参数。经过多次迭代后,将训练好的模型应用于测试数据进行裂缝预测,从而评估模型的效能和可靠性。

在这里插入图片描述

图2 基于UGIN算法的裂缝识别流程示意图

4.2 图结构构建方法

  图结构的构建,尤其是邻接矩阵的构建,对于将非平衡图同构网络(UGIN)算法有效嵌入图空间至关重要。预处理和图构建技术的最新进展强调了稳健图结构对于提高算法性能和相关性(Khalid等,2021)的必要性。通过尝试各种方法,可以更好地利用测井样本信息,最终提高UGIN算法用于裂缝识别的有效性。

  基于数据的特征空间,提出了五种图结构构建方法。基于K-means聚类方法、层次聚类方法、序列边方法、综合连接方法和增强连接策略构建图结构的示意图如图3所示。序列边方法已被确立为构建图结构的最优方法。详见第4.1节和第5.3节。

  K-means聚类是一种广泛使用的无监督学习算法。它将数据节点划分为K个不同的簇。每个节点被分配到与其均值(质心)最近的簇中,如图3(b)所示。这种方法对于数据分组高效且有效。首先,确定簇的数量K。选择K个数据节点作为初始质心,选择方式可以是随机选择或基于启发式方法。对于每个数据节点,计算其与每个质心之间的距离,并将该节点分配到最近的簇中。通过计算分配给每个簇的节点的平均值来更新簇的质心。重复此过程,直到质心的变化很小或达到设定的迭代次数限制。该算法最终收敛到一组稳定的质心,这些质心定义了最终的聚类解决方案(Ghezelbash等,2020)。

  层次聚类评估所有节点之间的相似性,如图3©所示。最初,每个数据节点被视为一个单独的簇。然后,根据节点间的相似性,将两个最相似的节点合并为一个新簇。更新相似性矩阵以反映新簇。迭代重复此过程,合并簇,直到满足停止准则(Karna和Gibert,2022)。简而言之,层次聚类算法通过评估数据节点类别之间的相似性来合并簇。它测量每个类别与其他所有节点之间的距离,以指导合并过程。距离越小,相似性越高。通过合并两个最近的数据节点或类别,生成聚类树。

  采用序列边方法构建图结构,结合特征内聚性和近邻深度序列节点间的相似性,如图3(d)所示。连接一阶和高阶相邻样本,以探索相邻节点之间的相互作用。鉴于地质数据节点是基于深度的,构建边以连接相邻节点对于保持节点连通性至关重要。在图中,节点表示序列中的变量或事件,而边表示变量之间的依赖关系或条件独立性。

  综合连接方法将同一岩性的所有节点连接起来,在它们之间建立边,如图3(e)所示。当岩性发生变化时,也在节点之间构建边。这种方法强调了地质结构内的关系,确保同一岩性的节点相互连接。

  增强连接策略首先计算同一岩性内所有样本节点的均值点,代表这些节点的特征均值,如图3(f)所示。然后,将每个具有匹配岩性的样本节点连接到其相应的均值点。此外,如果两个相邻样本节点在深度上具有相同的岩性,则在它们之间建立边。

在这里插入图片描述

图3 图结构构建方法示意图

4.3 UGIN算法

  图神经网络(GNN)在节点分类方面取得了最先进的性能(Franco等人,2009)。尽管如此,现有的GNN模型在处理不同类别节点的样本均衡问题时存在挑战。然而,在许多实际场景中,某些类别的实例数量可能远少于其他类别。为解决这一挑战,提出了一种新颖的UGIN方法,该方法集成了图神经网络来处理不平衡的断裂问题。

G = ( V , A , X ) (2) G = (V, A, X) \tag{2} G=(V,A,X)(2)
  如式(2)所示, V V V表示图中所有节点的集合; A A A表示由图中节点关系生成的邻接矩阵, X X X表示具有节点初始特征的特征矩阵。为解决所定义的问题,利用先进的图神经网络GIN(图同构网络)来实例化GNN编码器。

  GIN(图同构网络)是一种复杂的图神经网络,专门用于学习图中的节点表示。它在处理复杂的图结构数据分析挑战方面表现出色。核心技术是通过邻居聚合函数(Amouzad等人,2023)来更新每个节点的特征表示。具体来说,GIN通过以下步骤提高了节点表示的表达能力:首先,对于每个节点,GIN考虑其所有邻居的特征。这些邻居节点的特征被视为一个多重集,允许多个节点之间的连接。这在真实的图数据中很重要,因为节点之间的连接往往是复杂且多样的。其次,GIN使用聚合函数(通常是求和或加权求和)来总结每个节点及其邻居的特征。该聚合过程的目的是捕获节点周围邻居的信息,从而更新节点的表示。其优势在于,节点的最终表示不仅依赖于其自身的特征,还包括其邻居的影响,使表示更全面和丰富。GIN的多重集函数在聚合过程中起着关键作用。该函数需要具有足够的判别能力,以确保不同的邻居多重集能够产生不同的节点表示。这种判别能力直接决定了GIN在处理图数据时的表达能力和学习效果。通过优化和设计多重集函数,GIN能够更好地理解和学习复杂图结构中的节点特征,从而提高其在图数据分析任务中的性能。GIN通过邻居聚合函数和多重集技术提高了图神经网络建模节点特征的有效性。这种方法不仅适用于一般的图数据分析,而且特别适用于具有复杂连接关系和不平衡数据分布的真实世界图数据应用场景。因此,多重集函数的强判别能力直接对应于GNN表示能力的增强。

h i ( l ) = M L P ( l ) ( ( 1 + θ ( l ) ) ⋅ h i ( l − 1 ) + ∑ v j ∈ N ( v i ) h j ( l − 1 ) ) (3) h_{i}^{(l)} = MLP^{(l)}((1 + \theta^{(l)})·h_{i}^{(l-1)} + \sum_{v_{j} \in N(v_i)} h_{j}^{(l-1)}) \tag{3} hi(l)=MLP(l)((1+θ(l))hi(l1)+vjN(vi)hj(l1))(3)

其中, h i ( l ) h_{i}^{(l)} hi(l)是节点 v i v_i vi在第 l l l层的嵌入。 v j v_j vj表示与节点 v i v_i vi相邻的一阶邻居节点。 N ( v i ) N(v_i) N(vi)是节点 v i v_i vi的所有一阶邻居节点的集合。 θ \theta θ是一个可学习参数。 M L P MLP MLP表示多层感知器。

  如式(4)所示,节点v_i第0层的嵌入是该节点的初始特征。堆叠 l l l层以获得节点的嵌入。
h i 0 = x i (4) h_{i}^{0} = x_i\tag{4} hi0=xi(4)

  在获取每层节点的嵌入信息表示后,需要获取整个图或局部图的嵌入信息表示,该层的嵌入信息表示和最终整个图或局部图的嵌入信息表示可以通过式(5)获得。其中 C O N C A T CONCAT CONCAT表示拼接函数, G G G表示整个图。
h G = C O N C A T ( ∑ I ∈ G , l = 0 L h i ( l ) ) (5) h_G = CONCAT(\sum^{L}_{I \in G, l=0} h_i^{(l)}) \tag{5} hG=CONCAT(IG,l=0Lhi(l))(5)

  如式(6)所示,基于线性映射和非线性激活函数获得节点的预测分数 p i p_i pi,其中 σ \sigma σ表示sigmoid激活函数。 N N N b b b表示可学习参数,以下文本统一表示为 ϕ \phi ϕ p i p_i pi的值在0和1之间。在断裂识别中,需要评估每个节点的预测分数,这需要建立一个合适的阈值。如果预测分数大于或等于阈值,则该节点被分类为断裂。相反,如果预测分数低于阈值,则该节点被分类为非断裂。
p i = σ ( N T h i ( L ) + b ) (6) p_i = \sigma(N^{T}h_i^{(L)} +b) \tag{6} pi=σ(NThi(L)+b)(6)

  为了提高准确率和召回率,将阈值的自训练纳入算法中,使算法能够通过自训练确定最佳阈值 T T T
S = r e c a l l 3 × W + a c c u r a c y 3 × ( 1 − W ) (7) S = recall^3 \times W + accuracy^3 \times ( 1-W) \tag{7} S=recall3×W+accuracy3×(1W)(7)

其中, S S S表示替代阈值的训练得分; W W W是召回率的权重,取值在0和1之间。为确定最佳阈值 T T T,首先设定一定数量的替代阈值,范围从0到1,间隔为 W W W,这里 W W W初始取为0.02。通过式(7)获得每个替代阈值对应的训练得分。最后,选择训练得分最高的替代阈值作为最佳阈值 T T T

  UGIN算法用于断裂识别的过程如图4所示,算法的第一步是将给定的图 G G G划分为 K K K个簇 [ C 1 , C 2 , . . . , C K ] [C_1, C_2, ... , C_K] [C1,C2,...,CK],其中每个簇 C K C_K CK包含 n K n_K nK个节点, k k k 1 , 2 , . . . , K 1, 2,..., K 1,2,...,K C K C_K CK中的节点集表示为 V K V_K VK。基于节点的特征Anorm(由归一化邻接矩阵的顶部特征向量确定),使用经典的K均值算法对节点进行聚类,如式(8)所示,A是邻接矩阵,D是度矩阵。

A n o r m = D − 1 / 2 A D − 1 / 2 (8) A_{norm} = D^{-1/2} AD^{-1/2} \tag{8} Anorm=D1/2AD1/2(8)
在这里插入图片描述

图4 UGIN裂缝识别流程示意图

  聚类后,每个簇中的节点数量可能不同,即一些簇可能包含更多的节点,而另一些簇可能包含更少的节点,这在一定程度上可以缓解数据的不平衡分布。这确保了邻域邻近性的保留。聚类后,计算每个簇的簇级表示 s k s_k sk,以总结 C k C_k Ck中的大多数行为模式,如式(9)所示。
s k = σ ( 1 n k ∑ v i ∈ V k h i ) (9) s_k = \sigma(\frac{1}{n_k} \sum_{v_i \in V_k} h_i) \tag{9} sk=σ(nk1viVkhi)(9)

  每个簇 C k C_k Ck通过以下损失函数被编码为节点表示,如式(10)所示。
L k = − 1 2 n k ∑ v i ∈ V k ( E C k log ⁡ D ( h i , s k ) + E C ~ k log ⁡ ( 1 − D ( h ~ i , s k ) ) ) (10) L^{k} = -\frac{1}{2nk} \sum{v_i \in V_k} (E_{C_k} \log D(h_i, s_k) + E_{\tilde{C}_k} \log(1-D(\tilde{h}_i, s_k))) \tag{10} Lk=2nk1viVk(ECklogD(hi,sk)+EC~klog(1D(h~i,sk)))(10)

其中, D D D是一个判别器,输出节点簇的亲和度得分,如式(11)所示。节点表示 h i h_i hi和簇表示 s k s_k sk作为负样本。非断裂点在簇中占大多数,簇代表大多数非断裂点。判别器输出一个相关得分,该得分识别簇内断裂的偏差。该得分反映了断裂偏离大多数节点的程度。
D ( h i , s k ) = σ ( s k T ⋅ W ⋅ h i ) (11) D(h_i, s_k) = \sigma(s_k^{T} · W· h_i) \tag{11} D(hi,sk)=σ(skTWhi)(11)

  最终损失函数是 k k k个簇的损失的平均值,如式(12)所示。
L 2 = 1 K ∑ K = 1 K L K (12) L_2 = \frac{1}{K} \sum_{K=1}^{K} L^{K} \tag{12} L2=K1K=1KLK(12)

  计算每个簇中节点的损失。该方法利用每个簇内正负样本的分布。通过计算这些簇中正负样本的平均损失,全面评估不同簇的贡献。该方法的优点是可以根据不平衡数据集的聚类优化定位并计算损失。通过将节点聚类为几个簇,可以减少类别不平衡的影响,并通过计算每个簇内的损失来进一步平衡不同类别的贡献。

  在算法的训练方法方面,本文采用联合训练和改进的解耦训练两种方法来实例化训练过程。联合训练坚持表示和分类器联合学习的方案(Bilmes和Kirchhoff,2003)。如图5(a)所示,训练过程整合了编码器和分类器之间的一致性,利用单个损失函数来训练参数。联合训练中使用GIN编码器和分类器来估计节点标签,并利用标准二元交叉熵损失函数训练参数 θ \theta θ ϕ \phi ϕ,如式(13)所示。
L 1 = − 1 n ∑ i = 1 n [ y i ⋅ log ⁡ p ( y i ) + ( 1 − y i ) ⋅ log ⁡ ( 1 − p ( y i ) ) ] (13) L_1= -\frac{1}{n} \sum_{i=1}^{n}[ y_i · \log \text{p}(y_i) + (1-y_i) · \log(1 - \text{p}(y_i)) ] \tag{13} L1=n1i=1n[yilogp(yi)+(1yi)log(1p(yi))](13)

在这里插入图片描述

图5 模型联合训练与解耦训练流程示意图

  节点特征表示在UGIN算法应用于断裂识别中起着至关重要的作用。节点表示已从传统的人工特征演变为先进的、面向维度的测井数据。这一转变显著提高了算法性能。然而,测井数据表示通常表现出高耦合性。输入数据的所有成分都被编码到一个单一的特征空间中,产生了相互依赖性并降低了可区分性。这损害了表示的解读性。

  解耦训练旨在开发一种低维的、可解释的抽象表示,将高维观测数据中的各种潜在变化因素隔离开来。该方法通过不同的子空间捕获和调节各个变化因素,从而产生更具解释性的表示。解耦训练提高了样本效率和抗不相关干扰的能力,为复杂数据变化提供了稳健的框架。由此产生的表示对于识别和分类任务具有价值。

  解耦训练将表示学习过程和分类过程解耦。如图5(b)所示,第一步是通过GIN编码器估计节点嵌入,并通过额外的自监督损失函数(如式(10))训练参数 θ \theta θ,该过程独立于观测到的节点标签。基于学习到的参数 θ \theta θ,第二步是估计节点的标签,基于GIN编码器和分类器训练参数 ϕ \phi ϕ,并利用标准二元交叉熵损失函数(如式(13))微调参数 θ \theta θ

  表3列出了GIN编码器、阈值优化和节点分类的伪代码。训练过程从根本上旨在通过迭代优化增强其分类和预测能力。在此过程中,基于量化预测与实际结果之间误差的损失函数,对模型的参数进行微调。优化过程依赖于优化器逐步最小化该损失,最终使模型收敛。优化器通过计算损失函数相对于每个模型参数的梯度来发挥作用。该梯度信息指示了应调整每个参数以减少损失的方向。使用预定的学习率,优化器逐步更新每个参数,以最小化损失。

表3 GIN编码器伪代码、阈值优化及节点分类算法

在这里插入图片描述

  存在各种优化器,每种优化器都有其独特的特点。传统的优化器包括批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降(MBGD),它们在计算效率和准确性方面有不同的权衡。基于动量的优化器引入了动量的概念,通过考虑过去的梯度来帮助加速收敛,使模型能够更有效地克服局部最小值。自适应优化器(如Adagrad和Adam)根据梯度的历史调整学习率,提高了复杂高维数据集的性能。特别是Adam优化器,结合了动量和自适应学习率的优点,使其计算效率高,并且能够适应不同的数据规模。它实现了快速收敛、强大的抗噪性和卓越的实际性能。这种动量和自适应学习的结合使Adam能够高效地导航复杂的损失景观,使其成为现代机器学习应用的流行选择。

  在此背景下,UGIN算法利用Adam优化器进行优化过程,得益于Adam的自适应学习能力,以实现增强的性能和收敛稳定性。通过每次迭代,Adam的高效参数更新有助于推动UGIN模型实现最佳预测和对不同数据输入的有效泛化。

4.4 裂缝识别结果评价指标

  裂缝识别是典型的二分类问题,包含裂缝与非裂缝两类。裂缝识别结果的评估通常依赖于准确率。然而,在裂缝数据不平衡的情况下(即裂缝样本数量远少于非裂缝样本时),需采用其他标准来评估识别结果。通常将非裂缝类定义为正类,裂缝类定义为负类。

  表4展示了二分类结果的混淆矩阵。 T P TP TP表示真阳性, T N TN TN表示真阴性, F P FP FP F N FN FN分别代表第一类错误(假阳性)和第二类错误(假阴性)。由于混淆矩阵仅统计正确分类和错误分类的样本数量,无法直接衡量各模型的优劣,因此需要基于混淆矩阵构建多个衍生指标,以直观反映各模型的性能差异,用于模型评估。根据混淆矩阵,引入以下衍生指标并解释其含义:
A c c u r a c y = T P + T N T P + T N + F P + F N (14) Accuracy = \frac{TP + TN}{TP+TN+FP+FN} \tag{14} Accuracy=TP+TN+FP+FNTP+TN(14)

表4 识别结果的混淆矩阵

在这里插入图片描述

  在评估分类结果时,准确率(公式14)是常用指标。但在裂缝识别与分类数据不平衡的情况下,仅依赖准确率是不充分的。这是由于非裂缝类样本数量远多于裂缝类,导致非裂缝类占主导地位。因此,针对数据不平衡问题,需补充其他评估指标。

R e c a l l = T P R = T P T P + F N (15) Recall = TPR= \frac{TP}{TP+FN} \tag{15} Recall=TPR=TP+FNTP(15)

  召回率表示模型正确预测为正类的样本占实际正类样本的百分比。由于召回率仅依赖正类样本,因此不受数据不平衡影响。

F 1 − s c o r e = 2 P r e d i c t i o n ⋅ R e c a l l P r e d i c t i o n + R e c a l l = 2 ⋅ T P 2 ⋅ T P + F P + F N (16) F1-score = 2 \frac{Prediction · Recall }{ Prediction + Recall } = \frac{2 · TP}{ 2 · TP + FP + FN} \tag{16} F1score=2Prediction+RecallPredictionRecall=2TP+FP+FN2TP(16)

  F1分数是综合评估指标,常用于衡量二分类模型中精确率与召回率的平衡性能。它是精确率与召回率的调和平均数,旨在同时考虑模型在正类和负类上的表现。

  受试者工作特征曲线(ROC曲线)同样基于混淆矩阵,以图形方式展示特异性与敏感性的关系,反映真阳性率与假阳性率的对比。通过不断调整模型分类阈值,可将样本数据表示为TPR和FPR点对(即ROC曲线平面上的点)。ROC曲线描述并可视化了正确分类的正类样本与错误分类的负类样本之间的权衡。可计算ROC曲线下面积(AUC值)来比较模型性能(Walter, 2005)。

  基于上述分析,本研究选择准确率、召回率、F1分数和AUC值作为裂缝识别的评估指标。

4.5 UGIN算法与传统图神经网络(GNNs)的对比

  UGIN的核心目标是在学习节点表征的同时,保持图结构的重要性。该算法采用聚类方法(如K均值)以无监督方式划分图中的节点,同时保留图的局部和全局信息,从而获得更具表达力的节点表征。

  UGIN通过以下方式解决样本聚合不平衡问题:首先,利用聚类算法(如K-means)将图中的节点划分为多个簇。这些簇的节点数量不一定相同,能够更好地反映节点间的相似性与差异性。其次,将每个簇内的节点视为一个集合,称为子图。UGIN通过子图级别的表征来捕捉每个簇内节点的多样性与共性,而非简单聚合所有邻居的信息。最后,在训练过程中通过信息最大化损失(InfoMax Loss)优化模型。具体而言,采用判别器网络评估每个簇子图表征的质量,使模型能够生成更具差异化的节点表征。

  与传统GNNs相比,UGIN在以下方面提升了性能:通过将节点聚类为多个簇,并对每个簇进行子图级别的表征学习,UGIN能够更好地捕捉节点间复杂的关联性与差异性,从而生成更具表达力的节点表征。此外,由于每个簇内部的节点表征更为相似,模型在训练过程中更容易区分不同簇之间的特征,进而提升模型的鲁棒性并降低过拟合风险。

5、结果

5.1 针对裂缝标签的测井数据图结构构建

  不同图构建方法在模型训练数据和测试数据上的AUC性能如图6所示。实验结果表明,在裂缝识别方面,序列边方法构建图结构的表现优于K均值聚类方法、层次聚类方法、综合连接方法和增强连接策略。序列边方法擅长保留测井特征的深度信息,同时显著提高样本对深度相邻节点的感受性。相比之下,基于聚类的图构建方法往往优先考虑样本特征的相似性而非深度信息,导致在裂缝识别任务中表现不佳。

在这里插入图片描述

图6 算法中不同邻接矩阵构建方法的AUC值

  地质数据通常包含深度信息和地层属性(如岩性、地球物理测量值等),这些数据在深度方向上具有连续性和时序性。序列边方法通过定义滑动窗口或其他合适的窗口机制来选择序列边。在地质数据中,该窗口可以表示为某一深度范围内数据点的集合,并在该集合内的数据点之间建立边。这种方法有效捕捉了相邻深度数据点之间的地质联系和属性相似性,增强了模型分析地质时空变化和属性随深度演化规律的准确性。因此,强调基于深度邻域特征的学习,并优先使用深度邻域节点进行特征嵌入,对于准确的裂缝识别至关重要。

  裂缝识别模型的输入图可视化如图7所示。该图可视化方法基于粒子物理学理论,通过Fruchterman-Reingold算法获得图布局。

在这里插入图片描述

图7 裂缝识别模型的输入图可视化

  该算法将图中的节点模拟为原子,通过模拟原子间的力场计算节点间的位置关系,从而获得节点间的布局关系(Fredro等,2016)。输入图由1851个节点组成,按照边的序列构建了5551条无向边。每个节点代表不同的裂缝属性,其中裂缝节点的数量显著少于非裂缝节点,形成了典型的非均衡图。成对节点之间的连接表示边的存在。

5.2 基于UGIN的裂缝识别

  UGIN算法中的参数对模型有重要影响。本文采用贝叶斯优化方法来寻找超参数的最优组合。UGIN算法参数配置如表5所示。训练轮数设为预设值,隐藏层维度设为128,MLP层数设为3。选择Adam优化器进行优化。

表5 UGIN算法参数设置

在这里插入图片描述
  为了测试UGIN算法的分类和预测性能,本文选择基于图神经网络的方法和机器学习算法作为对比方法。

  首先,Dominant显式建模拓扑结构和节点属性,利用图卷积网络进行节点嵌入学习。然后定制了一个深度自编码器来解决不平衡异常节点的问题(Fernando等,2020)。

  其次,Graph SMOTE将不平衡学习技术扩展到不平衡节点分类任务中,以促进图神经网络分类器(Galke等,2023)。利用一些过采样算法合成并构建编码节点相似性的嵌入空间。训练边生成器来建模关系信息,并为这些新样本提供信息,以解决不平衡节点分类问题。

  具体而言,本文比较了三种节点特征提取方法,即Graph SAGE、GCN和GIN。基于图神经网络的对比算法的参数设置与表5中的设置一致。值得注意的是,基于图神经网络的对比算法中的图构建方法采用序列边方法。

  除了图神经网络算法外,本文还比较了AdaBoost、SVM、RF和KNN在裂缝识别上的表现。为了解决数据不平衡问题,本文在训练数据上平衡了少数类和多数类样本的比例,针对四种非图神经网络算法。四种方法的主要参数设置如表6所示。

表6 部分比较算法参数设置

在这里插入图片描述
  对所有四种方法使用SMOTE对训练集进行采样,并遵循采样后正负样本比例1:1的原则。在AdaBoost算法中,选择决策树作为弱分类器,使用100个分类器,随机种子为42,其他参数保持默认设置。SVM算法使用径向基函数,随机种子数为42,其他参数设为默认。RF算法的分割标准设为Gini,决策树数量设为100,随机种子数设为42,其他参数设为默认。KNN算法查询的邻居数设为5,其他参数设为默认。

  表7展示了UGIN算法和对比算法在裂缝识别测试数据上的性能结果,实验中采用交叉验证方法,本文使用10折交叉验证。UGIN算法在AUC值、准确率、召回率和F1值上均优于对比算法。具体而言,UGIN算法的AUC值为0.938,比Graph SMOTE(GIN)算法高17.99%,比Graph SMOTE(GCN)算法高14.53%。在F1值方面,UGIN算法可达0.800,比Graph SMOTE(GIN)算法高9.70%。这一显著差异表明UGIN算法在裂缝识别实验中的优越性。基于图结构的神经网络算法在整体裂缝识别准确率上表现出更高的准确性,优于其他方法。

表7 不同方法的性能比较

在这里插入图片描述

  此外,这些算法在捕捉测井特征之间高度非线性关系方面表现出更强的学习能力。在五种基于图结构的神经网络算法中,UGIN算法的分类准确率达到了96.7%,超过了其余四种算法的性能。在召回率方面,UGIN算法达到了85.7%的显著分类召回率,显著优于对比算法。这表明UGIN算法在准确分类特定类别样本方面表现出色,对裂缝标签具有更高的识别准确率。

  为了考察学习率对模型的影响,本文将学习率设置为0.1、0.01、0.001和0.0001三个不同值进行实验,保持其他所有参数不变。如图8所示,当学习率为0.001时,模型在数据上的性能达到了最佳。

在这里插入图片描述

图8 不同学习率对模型的影响

  图9展示了UGIN算法在训练集和测试集上的AUC性能。测试集上的AUC性能趋势与训练集一致,表明模型在测试集上具有较强的预测能力。另一方面,UGIN算法在测试集上的AUC性能优于其他模型。值得注意的是,当训练轮数超过150时,算法的AUC性能趋于稳定。当训练轮数达到300时,算法的AUC性能达到稳定,峰值达到0.93。

在这里插入图片描述

图9 训练和测试的AUC表现

  为了进一步验证UGIN算法在裂缝识别中的有效性,本研究利用盲井数据,采用UGIN算法进行裂缝预测。盲井的测井深度范围为2957米至3014米。图10展示了测试数据和盲井数据的混淆矩阵。测试数据的总体预测准确率为96.75%,正样本召回率为85.71%,F1值为80.0%。此外,盲井数据的预测准确率为98.11%,正样本召回率为93.75%,F1值为86.96%。这些结果表明,该模型在应用于盲井数据时具有较强的预测能力,在准确识别裂缝点方面表现出色。

在这里插入图片描述

图10 混淆矩阵结果图

  基于盲井数据,本研究利用UGIN算法和基于图神经网络的对比算法对预测标签和真实标签进行了比较,如图11所示。比较展示了UGIN算法和对比算法的预测标签与真实标签的对比。在32个具有真实裂缝标签的样本节点中,UGIN算法正确识别了30个样本,召回率为93.75%。这突出了模型的整体预测能力。从2957米到3014米,所有具有真实裂缝标签的样本节点都被正确识别和预测为裂缝样本。然而,一些具有真实非裂缝标签的样本点被错误分类为裂缝样本。

在这里插入图片描述

图11 基于不同方法的盲井数据预测标签和真实标签的比较。UGIN是提出的方法,而Graph SAGE、GCN、GIN和dominary是常用的图神经网络方法

  这种现象可归因于测井特征在深度上的变化较弱,以及模型对细微特征变化的不敏感。在特定深度,裂缝可能存在但数量较少,导致地层属性发生微小变化。当模型强调大规模特征变化而忽略细微变化时,可能会将非裂缝样本错误分类为含裂缝样本。此外,在某些深度范围内,地层的物理性质可能随深度变化。然而,由于地层结构的复杂性,这些变化可能是渐进的或不明显的。因此,模型可能难以准确区分裂缝样本和非裂缝样本,特别是在变化细微的情况下。

6、讨论

6.1 不同训练方法对于识别结果的影响

  解耦训练包括两个主要组成部分:表征学习和分类。表示学习是一种在无标记图数据上使用自监督学习的预训练过程。它鼓励编码器捕获目标所需的特征,使模型能够在没有大量标记数据的情况下有效学习。这种方法提高了数据利用率,特别是在数据稀缺的情况下。其次,通过在预训练阶段控制自我监督任务,该模型可以确保它学习到对特定任务有用的特征。这种控制有助于提高模型对任务的适应性。另一方面,分类是一个调整过程,通过标签图数据的监督学习来增强可变编码器和分类器的识别能力。

  解耦训练使模型能够通过两个不同的阶段进行独立优化。每个阶段的目标和损失函数都可以灵活调整,以增强模型的不同方面。预训练阶段通常用于学习有效的表示,而微调阶段侧重于特定任务的优化。这种方法有助于模型在新数据上表现更好,因为它更好地利用了数据的统计结构。

  UGIN算法采用了一种基于解耦训练的增强训练方法,以提高模型在裂缝识别中的分类和预测性能。为了验证解耦训练方法,使用具有一致参数的解耦和联合方法对模型进行训练。然后,它在训练和测试数据集上进行了测试。模型在这两种训练模式下的性能如图12所示。

在这里插入图片描述

图12 模型上不同训练模式的结果

  解耦训练和联合训练对训练数据的AUC性能分别为0.984和0.977,表现出相似的性能水平。然而,在测试数据上,解耦训练的AUC得分达到0.938,比联合训练的AUD得分高出5.27%。解耦训练的F1得分达到0.80,比联合训练的F1成绩高出9.29%。这种改进意味着在使用解耦训练方法时,模型的分类效果得到了增强。

6.2 GIN层对UGIN算法及过平滑问题的影响

  在3.3节中研究的UGIN算法,采用GIN实例化的图神经网络编码器学习特征嵌入。随着模型深度增加,信息聚合的范围逐渐扩大。然而该过程存在过平滑问题,增加了根节点聚合不同标签节点信息的可能性,削弱了模型的分类性能。本节将讨论GIN层对算法性能的影响及过拟合问题。

  如图13所示,当GIN层数为3层时,测试数据的AUC得分为0.938,召回率为0.857,F1分数为0.800,表明模型已充分拟合。但当GIN层数增至4层时,测试数据的AUC值略微下降至0.927。在此阶段,增加层数使AUC稳定在0.9左右,表明识别模型未出现过平滑现象。然而当GIN层数达到8层时,测试数据的AUC值显著下降至0.895,呈现明显下降趋势。该AUC值较7层时下降约8.19%,表明发生了过平滑。随着GIN层数继续增加,AUC得分持续降低,模型的过平滑趋势加剧。当GIN层数达到11层时,测试数据的AUC值骤降至0.733,显示出更为严重的过平滑现象。

在这里插入图片描述

图13 GIN层数对测试数据识别结果的影响

  过平滑主要由两个因素引起。首先,随着GIN层数增加,图结构趋于同质化,导致分类任务中相邻节点表现出相似的标签率。这使得不同类别间的特征存在过度相似性,有限的特征信息也限制了图结构细节的保留。其次,过平滑源于节点在邻域聚合过程中混合了信息与噪声。噪声的过度混合对聚合阶段接收的信息质量产生负面影响,导致节点通过聚合获得的信息未必有效。当节点接收的噪声超过有效信息时,学习到的图表示会趋于过度平滑。

  UGIN算法通过三个核心优势解决过平滑问题。首先,UGIN算法通常整合全局图信息而非仅依赖局部邻域数据,通过全局池化或全局图结构特征实现,确保模型考虑节点特征的整体上下文而非仅依赖局部信息传递。其次,各层GIN模块尝试捕捉图的结构信息并根据当前层特性更新规则,通过保持多级特征表示的差异,UGIN能在多层网络中保持节点特征的丰富性,减少过平滑倾向。最后,训练过程中采用正则化方法(Dropout)增强模型泛化能力和抗过拟合性,有助于缓解过平滑问题。

  GIN层通过聚合节点邻居信息并更新节点特征来实现。GIN通过聚合相邻节点特征后应用多层感知机(MLP)生成新表示,该过程在各级引入非线性变换,保留节点特征的丰富性和多样性。GIN模块的每一层捕获不同尺度的图结构信息,因此各层的节点表示不仅依赖当前层的相邻节点,还整合了高层抽象和全局图结构信息。通过分层特征更新,GIN层逐步提取并整合网络中的高层图结构特征,从而为复杂图数据提供更全面的表示。

  为缓解过平滑问题,GIN引入了跳跃连接。跳跃连接使原始节点特征能在多层网络中得以保留,并直接传递到后续层的特征表示中。通过跳跃连接,GIN在保持多层特征变换的同时,保留并整合原始节点特征信息。这种方法有助于避免多层更新过程中因特征过度融合导致的平滑问题。

6.3 不同图结构方法对盲井数据的性能测试

  为进一步验证序列边图结构方法在裂缝识别中的有效性,利用第3.2节所述的五种图结构方法,采用盲井数据对其裂缝识别结果进行了对比,结果如图14所示。序列边图结构方法在盲井测试中取得了最佳效果,且模型泛化能力优于其他四种方法。

在这里插入图片描述

图14 不同图结构方法得分

  在构建裂缝分类预测模型时,图结构的构建方式通常直接影响模型性能。研究表明,图结构构建不仅涉及节点和边的简单连接,更包含多源信息(如岩性数据)的有效整合。岩性作为地质学中的关键参数,通过影响岩土的物理化学性质,能够提升模型预测精度。然而在实际应用中,简单的岩性连接方法并未达到预期效果,这促使我们思考如何在图结构构建中更好地利用岩性数据。

  岩性通常指岩石的类型、成分、构造和形成环境,对于理解地下地质结构具有重要意义。理论上,岩性连接的有效性取决于以下因素:1)岩性空间连续性:自然界中岩性具有一定空间连续性,某些岩性特征在特定区域内保持一致。因此,基于空间连续性的连接方式有助于模型识别大规模地质单元,但在处理跨多尺度的复杂地质构造时可能不够充分。2)岩性与环境因素的相互作用:岩性并非独立存在,常与水文、气候等环境因素相互作用。这些相互作用对地质演化至关重要,因此仅依赖岩性数据而忽略其关联关系,可能无法准确表征真实地质条件。3)岩性相似性:岩性相似区域往往经历相似地质过程,可通过岩性相似性进行连接。但这种基于相似性的连接方式可能忽略矿物成分、物理性质和局部地质变化等关键因素,导致模型无法充分捕捉岩性间的复杂关系。

  尽管当前序列边构建方法相对简单,但在本研究中展现出较稳定的效果。该方法通过简化网络构建、降低参数复杂度,在有限数据条件下仍能保证模型稳健性能。然而随着数据量和复杂度的增加,这种简化构建方法可能遇到局限。因此,需要更复杂的图结构构建技术来进一步提升模型性能。未来研究应聚焦于利用先进网络构建技术,将岩性信息与其他地质数据进行整合,以克服现有方法局限,实现对复杂地质现象更精准的预测分析。

6.4 UGIN算法的计算复杂度

  在GIN中,图的邻接矩阵用于计算节点的消息传递和聚合操作。对于具有N个节点和E条边的图,邻接矩阵的存储和操作复杂度为O(N²),本文使用稀疏矩阵(COO格式)以节省空间,存储复杂度为O(E)。

  在大规模数据集背景下,UGIN算法的时间复杂度主要取决于节点数N、边数E、特征维度D、GIN层数L、每层邻居数P、训练迭代次数T和重新聚类频率r。每次重新聚类的复杂度为O(N•D•k²),其中k为聚类数。对于每r次重新聚类迭代,总复杂度为O(r•N•D•k²),本文数据基于每20次迭代获得。训练和推理过程的复杂度为O(T•L•N•P•D)。在实际应用中,通常需要分布式计算、GPU加速、内存优化等技术来提高算法效率,以应对大规模数据集。

6.5 不足与未来工作

  通过结果验证观察到,UGIN算法对地质裂缝表现出有效的预测能力。考察了图结构构建方式,发现基于序列边构建的邻接矩阵在AUC性能上优于基于聚类的邻接矩阵构建方法。因此,本文采用序列边方法构建地质数据图结构。然而,该方法连接所有相邻节点,可能忽略图结构对算法的影响,而仅基于地质测井深度关注相邻节点间信息的凝聚性和相似性。此问题值得进一步研究。此外,使用K-means划分局部图需要预设聚类数,这可能限制模型在不同数据集或任务中的适用性和泛化能力。

  为推进节点表示学习,未来研究应聚焦以下领域:首先,开发能动态适应数据特征和任务需求的聚类方法,提升模型灵活性和适用性;其次,探索跨不同尺度(如节点、子图、全图)信息的有效整合,提高模型在多尺度图数据上的性能;最后,设计方法以自适应调整学习策略和模型参数,从而处理具有不同复杂度和特征的图数据。未来将使用更多数据集验证模型算法。

7、结论

  为解决裂缝识别问题,采用非平衡图同构网络(UGIN)算法。通过一系列对比实验,得出以下结论:

  (1)UGIN算法保留图的原始拓扑结构,通过序列边方法构建数据图,最大程度保留节点间信息,强调相邻节点的影响,并采用基于互信息最大化原则的解耦训练方法。实验结果表明,UGIN模型准确率为96.7%,AUC评分比Graph SMOTE模型高14.5%。此外,UGIN模型在召回率方面也表现更优,尤其是对少量破碎样本的分类。

  (2)UGIN模型的关键参数对裂缝识别结果有显著影响。最佳学习率为0.001。当GIN层数为3时,模型AUC评分最高。当层数超过7时,模型性能开始下降并出现过拟合。这些发现为实际应用中UGIN模型的参数设置提供了指导。

  未来工作将致力于开发基于动态聚类方法的稳健图构建方法,整合多尺度信息,并自适应调整学习策略以处理复杂图数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值