Variational Graph Auto-Encoders VGAE代码模块详细解读（2）

kiwi～雅～

已于 2024-10-15 20:21:29 修改

阅读量264

点赞数 5

文章标签： python 深度学习卷积神经网络

于 2024-10-14 17:45:58 首次发布

本文链接：https://blog.csdn.net/2301_76522976/article/details/142924025

版权

紧接着上一篇发布哦，上一篇的解读如下：

VGAE代码模块详细解读（1）-CSDN博客

接下来进行预处理preprocess.py模块代码的解读，还是继续粘贴自己做的笔记图片叭：

接下来进行model.py模块代码的解读:

接下来进行input_data.py模块代码的解读:

我们可以看到Citeseer 数据集得到了额外的处理，而其他数据集则没有类似的处理。其背后的原因是不同的数据集存在特殊问题和结构差异，特别是 Citeseer 数据集的一些特性要求对其进行修复或额外处理。以下是详细解释：

1. Citeseer 数据集中的孤立节点问题：

孤立节点（Isolated Nodes）：在 Citeseer 数据集中，某些节点没有任何边（即孤立节点），这意味着它们不会在图中与其他节点产生连接。
影响：由于这些节点没有连接，它们在图中没有邻居，这导致它们在原始特征矩阵中并没有相应的特征向量。
修复方法：为了处理这些孤立节点，代码通过创建一个扩展的特征矩阵 tx_extended，确保每个孤立节点都有一个特征向量（即使这个向量是全零向量）。

在代码中，相关的处理逻辑如下：

 if dataset == 'citeseer':
     # 找到测试集中孤立的节点，并在正确的位置添加它们的零向量
     test_idx_range_full = range(min(test_idx_reorder), max(test_idx_reorder) + 1)
     tx_extended = sp.lil_matrix((len(test_idx_range_full), x.shape[1]))
     tx_extended[test_idx_range - min(test_idx_range), :] = tx
     tx = tx_extended

这段代码针对 Citeseer 数据集的特性进行处理：

扩展测试特征矩阵 tx：tx_extended 通过创建一个比原始 tx 更大的稀疏矩阵，为所有节点（包括孤立节点）提供特征空间，并用原始的 tx 数据填充那些实际有连接的节点的特征。
将孤立节点用零向量表示：孤立节点用全零的特征向量填充。

2. 为什么其他数据集没有类似的处理：

没有孤立节点问题：其他数据集（例如 Cora 或 Pubmed）不存在 Citeseer 数据集中的孤立节点问题。它们的数据结构较为完整，图中的每个节点都有至少一个连接，并且相应的特征矩阵已经能准确表示每个节点的特征。因此不需要对这些数据集进行类似的处理。
特定的数据集差异：不同的图数据集可能在数据格式、节点特征、边结构等方面有所不同，但 Citeseer 的问题（孤立节点）是一个较为特殊的情况，因而需要专门的修复。

3. 其他数据集的处理方式：

对于其他数据集，如 Cora 和 Pubmed，没有额外的代码是因为它们的特征矩阵和图结构已经满足训练需求，不需要像 Citeseer 这样处理孤立节点。
它们的特征矩阵通过 sp.vstack((allx, tx)) 直接拼接，测试集的特征按 test_idx_reorder 排序，并且无需对孤立节点进行额外的操作。

我们可以在官网上下载的VGAE_dgl-main代码包里面看到有这四个主要的代码，运行train.py文件可以得出我们实验结果，其他模块相互调用共同完成训练的实现。上面即为代码的相关注释，多多关注里面的损失函数，优化函数，评估以及卷积层等模块，先看论文再看代码哦！