2.2 Hard Sample Aware Network for Contrastive Deep Graph Clustering-CSDN博客

本文链接：https://blog.csdn.net/qq_39039754/article/details/135287253

一、研究背景

1.研究背景

在当前图数据处理的研究中，对比学习方法已经取得了令人瞩目的成果，特别是在深度图聚类方面。这些方法的核心目标是通过深度学习模型将图中的节点映射为具有高度信息含量的嵌入表示，并将它们有效地划分为不同的簇。在图像领域，研究者们已经证明了挖掘困难负样本对于优化模型性能的重要性。

2.问题挑战

然而，尽管图数据具有其独特的特征，但现有的方法主要关注处理难以分类的负样本，而忽略了处理同一类别但相似性较低的正样本的挑战。具体地存在以下两个问题：

1）测量样本硬度时，样本的相似性计算忽略了重要的结构信息，降低了所选硬负样本的代表性。

2）现有方法只关注硬负样本，忽略了硬正样本，限制了样本的区分能力。作者认为，同一聚类中，相似度较低的样本也应该仔细学习。

3.研究动机

作者的研究动机是：基于当前深度图聚类领域的研究存在一些局限性，特别是在对待正样本（同一类别但相似性较低的样本）的处理上。传统方法主要集中于处理难以分类的负样本，而对于正样本的深入学习相对较少。因此，作者希望通过提出一种通用的样本加权策略，使深度图聚类模型更全面地关注难以区分的正负样本，从而提高模型性能。同时，作者希望通过关注正样本，能够解决现有方法在处理同一类别但相似性较低的样本时存在的问题，以更全面地挖掘图数据中的信息。其旨主要是为了使深度图聚类模型更好地理解图数据内部的复杂关系，提高模型的泛化能力和适应性，使其在各种实际应用场景中更加强大和灵活。

4.解决思路

具体地解决思路是：在属性和结构编码中，使用属性编码器和结构编码器将属性和结构嵌入到潜在空间中。然后通过属性相似度和结构相似度的可学习线性组合来计算样本相似度，从而更好地揭示样本关系。此外，在高置信度信息的指导下，提出了一种通用的动态样本加权策略，对硬样本对进行加权，对易样本对进行减权。总体而言，硬样本感知的对比损失引导网络更多地关注硬正样本对和硬负样本对，从而进一步提高样本的判别能力。如下图是 HSAN 的框架图。

全面考虑样本相似性： 为了更全面地评估样本之间的相似性，作者提出了一个新的样本相似性度量准则。该度量考虑了属性相似性和结构相似性，并采用了可学习的线性组合来计算样本之间的相似性。通过这种方式，作者试图更准确地捕捉样本之间的关系，为后续的聚类任务提供更可靠的相似性度量。

引入样本加权策略： 为了解决现有方法忽视正样本的问题，作者引入了一种新的样本加权策略。该策略根据样本的训练难度动态调整正负样本的权重。对于高置信度的正样本和负样本，作者通过调整它们的权重，使模型更加关注那些难以学习的样本。这种动态样本加权的策略旨在提高模型对难以分类样本的关注，从而增强其性能。

通过这两个关键方面的创新，作者试图解决现有方法在处理正样本和负样本时的局限性，使深度图聚类模型更具有全面的学习能力和更好的泛化性能。

5.贡献创新

(1) 提出了一种新的对比深度图聚类，称为硬样本感知网络（HSAN）。它引导网络同时关注硬正样本对和负样本对。

(2) 为了辅助硬样本挖掘，设计了一个综合考虑属性和结构信息的相似性度量准则。它可以更好地揭示样本之间的相似性。

(3) 在高置信度聚类信息的指导下，所提出的样本权重调制策略在对易样本进行加权的同时动态地对硬样本对进行加权，从而提高了网络的判别能力。

（4）在六个数据集上的大量实验结果证明了提出的方法的优越性和有效性。

二、相关工作

三、方法实现

1.公式符号

2.属性和结构编码

在属性编码器之前，使用拉普拉斯矩阵对高频噪声进行滤波，即：

然后使用 $AE_1$ 和 $AE_2$ 对 $\widetilde{X}$ 进行编码，具体如下：

其中， $AE_1$ 和 $AE_2$ 简单的多层感知机，结构相同，但不共享参数。紧接着使用结构编码器，对结构信息进行编码，即：

其中， $SE_1$ 和 $SE_2$ 简单的多层感知机，结构相同，但不共享参数。通过以上过程获得了每个样本的属性嵌入和结构嵌入。随后，提出了属性结构相似性函数 $S$ 来计算 $j_{th}$ view 的 $i_{th}$ sample 与 $l_{th}$ view 的 $k_{th}$ sample 的相似性，即：

相似性函数 $S$ 综合考虑了属性和结构，所以它有助于挖掘硬样本的信息。

3.聚类和为标签生成

编码后，对学习到的节点嵌入进行 k-means，得到聚类结果。提取可靠的聚类信息，生成聚类为标签---->选取顶部的 $\tau$ 个高置信度样本作为为标签 $H$ 的集合，基于 $P$ ，计算样本对的为标签 $Q$ ，表示为：

其中， $\tau$ 是置信度超参数，是高置信度样本数量。置信度是通过到聚类中心的距离来测量的。

4.硬样本感知对比学习

经典的 InforNCE 中，将硬样本对与易样本对同等看待，限制了网络的区分能力。因此，HSAN 提出了一个权重调制函数 $M$ 来在训练过程中，动态的调整样本对的权重，具体地，基于属性结构相似性函数 $S$ 和伪标签 $Q$ ， $M$ 表示为：

超参数 $\beta$ $\in$ [1,5] 决定了易样本的加权率,Norm() 最小最大归一化。

基于 $S$ 和 $M$ ,对比损失为：

所以，总损失为：

该损失引导网络不仅关注硬负样本，还关注硬正样本，从而进一步提高了样本的判别能力，其原因有：

(1) $S$ 综合考虑了属性和结构信息，进一步揭示了样本间的关系。

（2） $M$ 动态的调节硬样本对和易样本对的权重。

算法执行过程：

四、结论

网络提出： 本文引入了一种名为硬样本感知网络（HSAN）的新型网络结构，旨在处理对比深度图聚类任务中的硬样本。
核心思想： HSAN通过调整样本对的权重来关注正样本和负样本对。具体而言，作者提高了正样本对的权重，减少了负样本对的权重，以强制网络更专注于难以学习的样本。
时间和空间分析： 对提出的硬样本感知对比损失进行了时间和空间复杂性的分析。结果显示，相较于经典的infoNCE损失，该方法不会引入显著的时间或空间成本。
实验证明： 作者通过实验证明了HSAN方法的有效性和优越性，表明它在处理对比深度图聚类任务中的硬样本时具有明显的优势。
缺点与未来方向： 文中指出HSAN的一个缺点是置信度参数被设置为固定值。为了进一步改进，未来的研究可以考虑设计一个可学习或自适应的置信参数，以提高方法的灵活性和性能。