图域自适应与图对比学习文献阅读笔记

对于网络数据，现有的解决方案不能用于领域自适应网络分类。
首先，这些方法是为CV和NLP任务开发的，其中样本（如图像）是独立和同分布的，这意味着不需要模型旋转不变性。然而，网络包含节点（即样本）和表示它们的依赖关系的边。（图的同构问题不能解决）
其次，目前大多数领域自适应模型以有监督的方式学习判别表示，损失值只是与每个样本在特征空间中的绝对位置有关。然而，用于节点分类的图表示学习通常以无监督的方式学习多目的表示，这增加了优化的难度。传统的领域自适应模型通常只关注如何将每个样本区分开来，而不考虑样本之间的关系。但在图表示学习中，节点之间的关系对于学习有意义的表示非常重要。因此，无监督的图表示学习需要解决更复杂的问题，以便同时学习节点的判别性特征和节点之间的关系。

1.3.3 现有图域自适应研究面临问题

在单个图中，图卷积网络（GCNs）利用直接邻域节点（局部一致性）进行知识嵌入，但在很大程度上忽略了图中的全局一致性。然而，全局一致性关系是非常重要的。因此，为了在网络中学习一个全面的节点特征表示，应该同时利用局部和全局的一致性关系。
当有多个图域可用时，现有的基于gnn的方法不能有效地利用关于图的高级全局因素的信息来进行源域和目标域的表示学习。
现有的图数据的域自适应方法通常使用域标签作为监督信号来训练分类器来建模源域和目标域的全局分布。我们在跨域学习中，不仅要考虑源域信息，还要共同考虑域之间的差距和目标域信息。现有方法忽略了目标域的语义信息，限制了模型对目标域的适应能力。

1.3.4 本文贡献

提出了一种新的图对比学习框架，结合吸引力和排斥力，以确保单个网络和多个网络的域内和域间的一致性。目标是通过调整模型或学习算法，使得在单个网络内以及多个网络之间的不同领域（域）中的数据能够具有相似的表示或特征。
我们提出的模型利用图对比学习来学习节点嵌入特征，通过利用每个图的局部和全局信息，以及不同图域之间的域差异。因此，通过使用域不变表示和语义表示，显著减少了无监督跨域节点分类的域差异。（域不变表示考虑到不同图域之间的共同特征，使得模型能够更好地适应不同的图域。同时，语义表示则强调了节点在各个图域中的重要性，从而提升了节点分类的性能。）

1.4 相关工作

1.4.1 图神经网络（GNN）

是一种用于学习图结构数据中节点表示的新兴方法。通过使用gnn将图中的节点编码为潜在表示，可以很容易地执行许多下游分析任务，包括节点分类、链路预测和聚类。
尽管 GNN 在许多任务中都取得了令人印象深刻的性能，但其中许多任务主要是关注单个网络中节点的表示学习。因此，当跨网络传输学习到的模型来处理类似的问题时，可能会出现嵌入空间漂移和分布差异。

1.4.2 对比学习

是一种自监督学习技术，旨在从数据中构建监督信息，而不使用手动标签。
近年来，人们提出了从局部和全局两个角度利用多尺度图信息的优点方法，然后在不同视图和网络的节点表示之间最大化MI。然而，这些方法大多用于域-单个图，不能考虑不同域的图。

1.4.3 跨域分类

寻求学习能够跨共享相同标签空间的领域转移知识的模型或方法

1.5 模型框架和模块解析

总的来说，我将本篇文章的模型划分为两个大的模块，第一个是图嵌入的生成模块、第二个是节点分类模块，对应图表示和下游节点分类任务

1.5.1 问题假设

一个完全标记（Ys）的源域图Gs = ( Vs,Es,Xs,Ys )以及邻接矩阵As，一个未标记的目标域图Gt = (Vt,Et)以及邻接矩阵At。
问题目标是从源域图和目标域图中学习一个模型f，能够完成对Gt的节点分类任务。

1.5.2 图嵌入的生成模块

为了使最终的图嵌入完美表现出在源域和目标域在域内和域间图表示的局部和全局一致性，本部分作者完成了4项工作：GNN图表示、单图域内的图表示、跨图域的对比学习、注意力机制生成图嵌入。

GNN图表示：该部分又分为两个工作，局部与全局的GNN图表示

局部一致性网络（GNN A）：在邻接矩阵A上，以一种前馈神经网络来学习局部一致性，结果是得到局部嵌入ZA
全局一致性网络（GNN P）:先构造了一个点向互信息矩阵（PPMI）矩阵P，在P上学习全局一致性，结果是得到全局嵌入ZP

单图域内的图表示：

通过保留全局属性和局部图块的表示来学习每个节点的低维表示。引入了一个特定领域的图神经编码器网络GNNcl，为它们的节点生成特定领域的节点嵌入矩阵H。

给出其对应的特征矩阵Xs和邻接矩阵As，将领域特定的编码器GNNs cl设计为一个单层GCN来学习矩阵Hs。
为了生成全局图的属性摘要使用一个readout（）函数来计算表示s来总结图g的全局内容。(readout函数会遍历图中的所有节点，并根据节点的特征和连接关系来计算全局表示。这可以通过求和、平均值、最大值等操作来实现，以根据任务需求提取图的重要特征。)
然后，给定源特定领域的节点嵌入矩阵Hs及其图级摘要表示s (s)，我们定义了一个特定领域的对比损失。（吸引力部分旨在最大化局部补丁表示和全局图表示之间的互信息，从而使它们在语义上更加一致。这可以通过衡量它们之间的相似性或使用信息论中的互信息度量来实现，排斥力部分旨在最大化排列图补丁表示和全局图表示之间的差异，以确保它们在特征空间中有明显的区分度。这可以通过测量它们之间的距离、差异或使用其他度量方法来实现。）
行序方式破坏原始内容矩阵，输出H-s，与Hs共享权重，并且与s(s)进行损失比较。
最后，将这些源和目标领域的对比损失合并为一个单一的损失

跨图域的图对比学习：

为了度量不同域间的局部信息和全局信息，设计了一个跨域对比目标函数来集成跨域间的嵌入，以共同学习高质量的表示。目的是使来自源域的节点最大程度上的与目标域的节点相对应（吸引力），同时又保持一定的区别，使域分类器分离源和目标域（排斥力）。

对于包含源图Gs和目标图Gt的每个图，首先基于之前的领域特定图对比学习网络，得到相应的领域特定节点嵌入矩阵H、图级摘要嵌入s和负节点嵌入矩阵H-。然后，通过利用来自其他域的全局摘要信息来增强每个域中特定领域的节点嵌入矩阵H。为此，设计了新的跨域对比损失9和10。试图使源节点和目标节点的特征基本一致。
- 将具有特定域的对比损失和跨域对比损失作为图对比学习模块的最终目标函数，最终得到的结果为
注意力机制生成图嵌入

节点嵌入模块生成四个嵌入数据：源图的Zs A、Zs P，目标图的Zt A、Zt P。此外，通过利用跨域图对比学习模块，我们得到了源图的Hs嵌入和目标图的Ht嵌入。通过聚合来自不同图的嵌入，得到了一个统一的表示。具体来说，为了学习一个统一的表示，我们使用一个注意方案，遵循已有方案，从每个域的局部、全局一致性和图对比学习网络中捕获所有嵌入的重要性，因为它们的嵌入的贡献是不同的。
- 最终源域图嵌入表示为Zs，目标域图嵌入表示为Zt
1.5.3 节点分类模块

为了更好地对目标网络中的节点进行分类，可以了来自不同领域的知识转移。我们提出的模型由对抗模块、源分类器、目标分类器以及域特定的和跨域图对比学习组成，可以学习判别和域不变节点嵌入。目标函数总体如下：
- γ1是域分类器损失的平衡因素，γ2调节了目标分类器的损失，γ3平衡了图对比学习模块的损失。Lcl表示图的对比学习损失。LS表示源分类器（交叉熵）的损失。同样，LDA是域分类器（对抗学习）的损失，LT是目标分类器（交叉熵）的损失。
1.5.4 总体框架图

输入由来自源域（左）和目标域（右）的图形组成。GCLN由三个主要部分组成：
(1)给定源网络As和目标网络At的邻接矩阵，GCLN首先创建PPMI矩阵Ps和Pt，以捕获表示学习的全局一致性。
(2)对于每个单独的领域，我们都是通过鼓励局部路径特征类似于全局表示（吸引力），并利用排斥力)最大化排列图和整个图的全局表示（排斥力）之间的差异来进行的。具体来说，吸引力机制增强了相似的图节点嵌入特征之间的一致性，而排斥力机制则通过增大不同图节点嵌入特征之间的差异来区分它们。
(3)跨源域和目标域，跨域图对比学习（详见图3）鼓励来自不同域的节点嵌入特征在很大程度上保持一致（吸引力），而域对抗损失（域分类器）旨在确保节点表示可以分离域（排斥力）通过跨域图对比学习来鼓励不同域的节点嵌入特征在很大程度上保持一致（通过吸引力机制）。同时，通过域对抗损失（域分类器），GCLN确保节点表示可以分离域（通过排斥力机制）。

2、CGSim:一种基于对比学习的图相似性比较网络

2.1 文章信息

标题：Contrastive Graph Similarity Networks
刊于：ACM，2023
作者：LUZHI WANG, YIZHEN ZHENG, DI JIN,FUYI LI,YONGLIANG QIAO,SHIRUI PAN

2.2 一句话概括文章的关键贡献

输入图对，利用GNN编码获取节点的向量表示，然后节点—图对比和图—图对比学习，计算相似性得分，并整合了一个组合损失函数优化此过程。

2.3 背景知识：

2.3.1 研究现状

最近的方法图相似学习，利用深度学习通常共享两个缺点：

(1)图神经网络作为骨干学习图表示但没有很好地捕捉到数据中复杂的信息；

(2)采用交叉图注意机制图相似性学习，（节点对比节点）产生了昂贵的计算。

2.3.2 本文贡献

为了得到节点的微小向量化表示，我们将对比学习整合到GSL的表示学习过程中。CGSim采用了一种交叉图学习方案来对比增强表示学习。
为了得到清晰的匹配关系，我们提出了一种同时采用节点图匹配和图图匹配的GSL对偶对比匹配框架。CGSim显著降低了交叉图交互建模的时间复杂度。我们提出的模型以这种方式与现有的方法明显不同。

2.4 相关研究

2.4.1 成对图的相似度计算(Pairwise graph similarity computation ,GSL)

图相似性学习是一种用于比较和度量图之间相似性的方法。在机器学习和数据挖掘领域，图被广泛应用于表示复杂的关系和结构化数据。图相似性学习旨在开发有效的算法和技术，能够对这些图进行比较，从而度量它们之间的相似性。

GSL方法通常包括以下步骤：

图表示：将图转换为计算机可处理的表示形式。常见的表示方法包括邻接矩阵、节点特征矩阵和边特征矩阵。
相似性度量：定义一种度量方式，用于计算两个图之间的相似性。这种度量可以基于图结构、节点属性和边属性等方面。
特征提取：提取图的关键特征，以便能够更好地进行相似性比较。这可以通过基于图的结构、局部图模式或者深度学习等方法来实现。
学习和优化：通过机器学习算法或优化技术，对图相似性学习模型进行训练和优化，以获得更准确的相似性度量。

GSL方法在许多领域都有广泛的应用，包括图匹配、图分类、社交网络分析、化学分子结构比较等。这些方法可以帮助我们理解和分析复杂的图数据，并从中发现隐藏的模式和结构。

2.4.2 图表示学习（Graph representation learning，GRL）

图表示学习是一种机器学习技术，旨在将图结构化数据转化为低维连续向量表示，以便进行下游任务，如节点分类、链接预测和图聚类等。

在传统的机器学习方法中，通常需要手动设计和选择图的特征。但对于大规模和复杂的图数据，手动设计特征是非常困难且耗时的。图表示学习的目标是通过自动学习，将图中的节点或子图映射到连续的向量空间中，从而捕捉节点之间的结构和语义信息。

图表示学习方法可以分为两大类：基于特征的方法和基于结构的方法。

基于特征的方法：这类方法依赖于节点或边的特征信息。对于节点，可以使用节点属性（如节点的标签、属性值）作为输入特征。对于边，可以使用边属性（如边的权重、关系类型）作为输入特征。这些特征可以由专家手动定义，也可以通过其他机器学习方法进行提取。基于特征的方法通常使用传统的机器学习算法，如支持向量机（SVM）、随机森林（Random Forest）等。
基于结构的方法：这类方法主要关注图的拓扑结构，即节点之间的连接方式。基于结构的方法通常利用节点的邻居节点信息来学习节点的表示。例如，图卷积网络（Graph Convolutional Networks，GCN）使用邻居节点的特征进行卷积操作，从而聚合邻居节点的信息并更新节点的表示。

图表示学习方法可以使用传统的降维技术（如主成分分析，PCA）或深度学习模型（如图卷积网络，Graph Convolutional Networks，GCN）进行实现。这些方法的目标是学习到一个低维的表示空间，其中节点之间的相似性在该空间中得以保持。这样，可以利用学到的图表示进行下游任务，如节点分类、链接预测、图生成等。

2.4.3 对比学习（Contrastive learning，CL）

对比学习是一种自监督学习方法，旨在通过学习样本之间的相似性和差异性来学习有意义的表示。对比学习的目标是将相似的样本在嵌入空间中拉近，将不相似的样本推远，从而使得学习到的表示具有良好的判别性。

在对比学习中，算法通常会从一个大型的未标记数据集中采样一对样本，然后通过训练模型使得正样本（相似样本）在嵌入空间中更接近，负样本（不相似样本）更远离。具体的对比学习方法会设计一种损失函数，用于衡量正样本和负样本之间的距离或相似性。

对比学习方法通常包含以下步骤：

样本对构建：从未标记数据集中随机或通过一定策略选取一对样本。这对样本可以是来自同一图像、不同增强版本的图像、相邻时间步的序列数据等等。
嵌入模型：通过一个嵌入模型将输入样本映射到一个表示空间中。这个嵌入模型可以是一个卷积神经网络（Convolutional Neural Network，CNN）或者是一个自编码器（Autoencoder）等。
对比损失计算：计算正样本和负样本之间的距离或相似度，通常使用的损失函数包括对比损失（Contrastive Loss）、三元组损失（Triplet Loss）等。
训练优化：通过优化算法（如随机梯度下降）迭代更新嵌入模型的参数，使得正样本距离拉近、负样本距离推远。

对比学习方法的优势在于它不需要标注数据，只需要利用未标记数据进行自监督学习，从而充分利用了大规模未标记数据的信息。对比学习已经在计算机视觉领域取得了很多突破，尤其在无监督学习和自主学习中被广泛应用。它被用于图像检索、目标检测、特征提取等任务中，有助于学习到更具有判别性和泛化能力的表示。

2.4.4 图对比学习（Graph Contrastive Learning，GCL）

图对比学习是对比学习方法在图结构化数据上的应用。与传统的对比学习方法相似，图对比学习旨在通过学习图数据中节点或子图之间的相似性和差异性，来学习有意义的图表示。

在图对比学习中，算法通常会从一个未标记的图数据集中构建样本对。这些样本对可以是来自同一图的不同节点或子图，也可以是来自不同图的节点或子图。然后通过训练模型，使得正样本（相似样本）在嵌入空间中更接近，负样本（不相似样本）更远离。

图对比学习方法的关键挑战是如何定义节点或子图之间的相似性和差异性。一种常见的方法是通过图结构上的局部邻域来定义相似性，即认为共享相似邻居的节点或子图更相似。例如，可以通过节点的邻居节点或子图的局部子图进行对比。另一种方法是利用节点或子图的特征信息来定义相似性，即认为具有相似特征的节点或子图更相似。这可以通过节点属性或子图属性进行比较。

在图对比学习中，常用的对比损失函数包括对比损失（Contrastive Loss）、三元组损失（Triplet Loss）等。这些损失函数在嵌入空间中通过最大化正样本间距离和最小化负样本间距离来训练模型，以促进相似样本的聚集和不相似样本的分散。

2.5 方法论

2.5.1 问题定义

输入两个图，生成图的嵌入，计算它们的相似性得分。文章的目标是训练一个可学习的GNN编码器，它将一对图作为输入，并输出它们的低维表示，用于相似度计算。

2.5.2 模块一：图的表示

文章设计了一个暹罗网络（siamese network），通过测量两个输入图像之间的相似性来区分视觉差异。两个输入被提供到一个暹罗神经网络的两个神经网络中。输入端被两个具有相同权重的神经网络映射到新的空间。通过损耗计算来度量两个输入值的相似度。一般来说，暹罗网络包含两个具有相同参数的神经网络，从而实现了更稳健的语义相似度学习。具体地说，在方法中，GNN模块是由两个具有共享的可学习权值的GNN编码器组成的。

为了估计两个图的匹配分数，我们首先需要在向量空间中嵌入两个图。在这里，我们使用了GNN编码器，通过收集节点的局部结构信息来获取节点表示。GNN编码器可以被认为是图的特征提取器，它主要由消息聚合和转换组成。

2.5.3 模块二：交叉图对比匹配（优化计算复杂度）

对比度节点-图匹配：为了减少过多的计算代价，文章构造了一种用于交叉图信息蒸馏的对比节点图匹配机制，而不是将一个图中的节点表示与对应图中的节点表示关联起来。聚合节点嵌入在一个图产生一个图级嵌入，这是一个节点嵌入的平均表示，和它的维度是相同的节点嵌入，我们试图使用一个图嵌入的一个图来代替节点嵌入在另一个图。为了进一步探索节点表示与图表示之间的匹配关系，我们基于以下直觉构造了一种交叉图对比学习方法：如果两个图相似，则所有节点嵌入都在G1应该接近于的图级嵌入G2，相反，如果两个图是不同的，那么1的节点嵌入和2的图应该相互推开。为了实现这种策略，我们利用互信息来研究节点嵌入和图形嵌入。
对比图-图匹配：我们使用节点级嵌入来学习具有正粒度对比性的交叉图交互，图的全局信息也有不可忽视的价值。因此，我们通过提出的图-图匹配（即图级嵌入之间的对比）进一步丰富了对比性，以巩固学习到的图的表示。直观地说，如果两个图是相似的，它们应该保持高度的一致性，即它们的互信息应该最大化，反之亦然。在一批样本中，对于正样本，我们扩大了两个图之间的一致性。对于负样本，我们从宏观上扩展了它们的分布范围。

2.5.4 模块三：设计组合损失

设计了一个组合损失，它由节点图对比损失、图图对比损失和用于相似性分数调整的BCE损失组成，以端到端的方式训练整个模型。其目标是使组合损失L最小化，计算如下：

我们采用梯度下降来最小化L，以便可以同时训练三种损失。因此，图表示学习部分和交叉图对比学习部分不是孤立的，而是相互有益的。BCE损失优化了交叉图对比学习的输入，反过来，交叉图对比学习也促进了节点和图的表达。

2.5.5 整体框架

提出的模型CGSim由四个组件组成： (a)输入图、(b) GNN模块、(c)交叉图对比学习模块、(d)组合损失模块组成，其概述如图所示：

首先将图对输入到一个GNN模块中，该模块输出节点级嵌入。通过聚合节点嵌入，图池技术可以在图级别上生成嵌入。
然后，利用生成的不同层次嵌入，构造了一个具有节点图匹配和图图匹配方案的对偶对比学习框架。
此外，通过进一步利用具有BCE损失的监督信号来约束生成的嵌入。共同训练一个由上述部分组成的组合损失（即节点图对比、图图对比和交叉熵损失），这样每个组件都可以对另一个组件有利。

2.5.6 总体脉络

1.计算源节点嵌入；

2.计算图级嵌入；

3.计算节点图相互信息；

4.计算节点图匹配损失；

5.计算图-图相互信息；

6.计算对比图匹配损失；

7.计算相似度指标损失；

8.使用确定的损失的优化方法更新模型参数；

9.返回图对之间的相似性得分；

3、其余相关文献简单介绍：

接下来简短介绍两篇引用中的文献，其余3篇引用和本次阅读的主题相差过大

3.1 Cross-Domain Graph Anomaly Detection via Anomaly-aware Contrastive Alignment（2022，arXiv）

3.1.1 文章主题

文章旨在通过使用Anomaly-aware Contrastive Alignment方法来实现跨域图异常检测，提高异常检测的效果。
这个方法结合了"Anomaly-aware"和"Contrastive Alignment"两个关键概念：
Anomaly-aware：表示该方法在对待异常数据时具有一定的注意力。它指明了该方法在处理异常数据时会有特定的处理机制或策略，以提高异常检测的效果。
Contrastive Alignment：表示该方法利用对比对齐的方式来实现跨域图异常检测。对比对齐是一种基于对比学习的方法，通过将正样本对齐并将负样本分散来学习有意义的表示。通过对比对齐，该方法可以在不同的领域中学习到相似和不相似的图表示，以进行跨域图异常检测。

3.1.2 文章总括

研究背景和问题：介绍了跨域图异常检测的研究背景和问题。跨域图异常检测使用已知的带有标记的源图来检测未标记的目标图中的异常节点，以解决异常检测中高误报率的问题。但是，目前在这个领域的研究还比较少。
研究目标：介绍了本文的研究目标。由于异常分布未知且图数据中存在复杂的节点关系，现有的领域适应方法难以应用于跨域图异常检测。因此，本文旨在提出一种新颖的领域适应方法，即Anomaly-aware Contrastive alignmenT (ACT)，来解决跨域图异常检测问题。
方法描述：介绍了本文提出的方法ACT。ACT通过对比对齐的方式联合优化目标图中正常节点的无监督对比学习和基于异常感知的单类对齐，同时将对比节点表示和源图中标记为正常的节点表示进行对齐，强制使源图中标记为异常的节点与正常节点的表示产生明显差异。这样，ACT有效地将从源图中传输异常相关知识以学习目标图中正常类的复杂节点关系，而不需要指定异常分布。
实验结果：介绍了本文在8个跨域图异常检测场景下进行的实验结果。结果表明，ACT在检测性能方面明显优于其他10种最先进的跨域图异常检测方法。
可重现性：提供了代码的链接，方便读者重现实验结果。

总体来说，这篇文章旨在解决跨域图异常检测问题，提出了一种新的领域适应方法ACT，并在实验中证明了其有效性。

3.2 Predictive Masking for Semi-Supervised Graph Contrastive Learning (2023,IEEE)

3.2.1 文章主题

该篇文章介绍了一种基于预测掩码（预测掩码是一种机制，通过将部分图节点或特征进行掩盖或隐藏，让模型预测被掩盖部分的信息，从而促使模型学习更有意义和鲁棒的图表示）的半监督图对比学习方法。该方法通过在图数据上使用预测掩码来提高模型的鲁棒性，并采用图对比学习来学习有意义的图表示。

3.2.2 文章总括

首先，介绍了图对比学习作为一种自监督学习方法，利用对比损失作为伪监督信号。现有的GCL方法主要集中在利用网络拓扑或节点相似性来对一对节点进行分类，判断它们是否相同或接近。
接下来介绍了本文提出的半监督图对比学习框架，即pmGCL。该方法通过引入预测掩码的方法，利用GCL来增强分类器的性能。具体而言，使用少量标记节点训练分类器来预测节点标签。将标签预测结果转化为所有节点对之间的二进制预测，用于生成一个二值掩码矩阵。这个转换后的结果将有助于后续的GCL学习，使得可能属于同一类的节点更加接近，而属于不同类的节点更加远离。
最后，通过在不同的基准网络和标签百分比上进行实验和比较，展示了pmGCL相对于基准图卷积神经网络（Graph Convolutional Neural Network，GCN）和GCL基准方法在问题上提出的简单约束下的持续优越性。
综上所述，介绍了一种基于预测掩码的半监督图对比学习框架（pmGCL）。该框架利用GCL方法增强分类器的性能，通过预测节点标签并将其转换为二值掩码矩阵，促使GCL学习将同一类别的节点拉近，将不同类别的节点推远。实验结果表明，pmGCL相对于GCN和基准GCL方法在不同数据集和标签比例下都取得了一致的优越性能。

红汤泥鳅

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
图域自适应与图对比学习文献阅读笔记

引入吸引力与排斥力机制，实现了源域和目标域在域内和域间图表示的局部和全局一致性，并训练了三个（源、域、节点）分类器，完成了对目标域节点的分类工作。输入两个图，生成图的嵌入，计算它们的相似性得分。文章的目标是训练一个可学习的GNN编码器，它将一对图作为输入，并输出它们的低维表示，用于相似度计算。接下来简短介绍两篇引用中的文献，其余3篇引用和本次阅读的主题相差过大。
复制链接

扫一扫