图(graph)神经网络学习(四)--代码解析(Model_2)

【2】Model_2: 1stChebNet(2017)-github:gcn  (https://github.com/tkipf/gcn)  (tensorflow)

{Semi-Supervised Classification with Graph Convolutional Networks}基于图卷积网络的半监督分类

文章:https://www.colabug.com/5231014.html

Graph Convolutional Networks

这是一个用tensorflow框架实现的图卷积神经网络,用来完成图中的节点类型分类,即是一个分类模型。

两篇论文:

【1】Semi-Supervised Classification with Graph Convolutional Networks (ICLR 2017)

【2】Graph Convolutional Networks (2016)

 


从github下载代码,上传到服务器上(尽量保证你的服务能连接外网,因为在调试程序时需要从外网中下载所需的数据,尽量保证你的服务器有GPU,因为有的代码常常会用GPU来加速),解压:unzip gcn-master.zip

查看虚拟环境名:conda env list     

选择一个虚拟环境激活:source activate your_env_name

查看python版本:python   (python3)

安装:python setup.py install

成功安装

查看requirements  

·tensorflow(>0.12)  

·networkx

运行模型:

cd gcn

python train.py       或者自定数据集运行   python train.py --dataset citeseer

正常运行结果:

 


现在开始在本地pycharm中分析源代码

setup.py可以看到作者Thomas Kipf已经他写的图卷积网络gcn做成了安装包,刚才运行的python setup.py install就是将该gcn模型安装到python的lib目录下。

运行模型命令: python train.py

以下是train.py代码,我们主要关心模型的输入数据格式。

train.py代码

以下截图是train.py的代码,从中可以看出,数据集有三个可选,模型种类有三个可选。

数据集:'cora','citeseer','pubmed'

模型:'gcn','gcn_cheby','dense'

论文数据集介绍

train.py代码

程序中的数据集,有三个整理好的数据集:'cora','citeseer','pubmed'

utils.py代码

utils.py代码

我们自己的数据集,处理成这个模型可用的格式。

·N*N的邻接矩阵  (N是图节点的个数)

·N*D的特征矩阵  (D是节点特征向量的维度)

·N*E 的分类标签矩阵  (E是类别个数)

详细理解一下数据:

ind.dataset_str.x文件 是train训练集实例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。

ind.dataset_str.tx文件 是test测试集实例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。

ind.dataset_str.allx文件 是所有(有标签和无标签)的train训练实例特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。  (半监督方法,一些标签数据,一些无标签数据)

ind.dataset_str.y文件 是train训练数据集的one-hot类型的标签向量,按numpy.ndarray形式存储的。

ind.dataset_str.ty文件 是test测试数据集的one-hot类型的标签向量,按numpy.ndarray形式存储的。

ind.dataset_str.ally文件 是所有有标签数据的one-hot类型标签向量,按numpy.ndarray形式存储的。

ind.dataset_str.graph文件 是一个字典{index:[index_of_neighbor_nodes]}

ind.dataset_str.test.index文件 是测试数据集的index

以上数据都用pickle存储。

读取pickle数据显示如下:

ind.cora.x数据   train训练数据

ind.cora.y数据   train数据集的标签one-hot向量

ind.cora.tx数据    test测试数据

ind.cora.ty数据   test数据集的标签one-hot向量  

ind.cora.allx数据    所有(有标签和无标签)的train训练集 

ind.cora.ally数据    所有有标签数据的one-hot类型标签向量  

ind.cora.graph数据   字典

再理解load_data()函数

load_data()函数  图1

load_data()函数  图2

oad_data()函数  图3

GCN的实验效果

这个框架还支持多个图形实例(可能具有不同大小)的批量分类,每个实例具有一个邻接矩阵。 最好连接各个特征矩阵并构建(稀疏)块对角矩阵,其中每个块对应于一个图实例的邻接矩阵。 对于池化(在图形级输出而不是节点级输出的情况下),最好指定一个简单的池化矩阵,该矩阵从各自的图形实例中收集特征,如下所示:

 

 

# GPF ## 一、GPF(Graph Processing Flow):利用神经网络处理问题的一般化流程 1、节点预表示:利用NE框架,直接获得全每个节点的Embedding; 2、正负样本采样:(1)单节点样本;(2)节点对样本; 3、抽取封闭子:可做类化处理,建立一种通用数据结构; 4、子特征融合:预表示、节点特征、全局特征、边特征; 5、网络配置:可以是输入、输出的网络;也可以是输入,分类/聚类结果输出的网络; 6、训练和测试; ## 二、主要文件: 1、graph.py:读入数据; 2、embeddings.py:预表示学习; 3、sample.py:采样; 4、subgraphs.py/s2vGraph.py:抽取子; 5、batchgraph.py:子特征融合; 6、classifier.py:网络配置; 7、parameters.py/until.py:参数配置/帮助文件; ## 三、使用 1、在parameters.py中配置相关参数(可默认); 2、在example/文件夹中运行相应的案例文件--包括链接预测、节点状态预测; 以链接预测为例: ### 1、导入配置参数 ```from parameters import parser, cmd_embed, cmd_opt``` ### 2、参数转换 ``` args = parser.parse_args() args.cuda = not args.noCuda and torch.cuda.is_available() torch.manual_seed(args.seed) if args.cuda: torch.cuda.manual_seed(args.seed) if args.hop != 'auto': args.hop = int(args.hop) if args.maxNodesPerHop is not None: args.maxNodesPerHop = int(args.maxNodesPerHop) ``` ### 3、读取数据 ``` g = graph.Graph() g.read_edgelist(filename=args.dataName, weighted=args.weighted, directed=args.directed) g.read_node_status(filename=args.labelName) ``` ### 4、获取全节点的Embedding ``` embed_args = cmd_embed.parse_args() embeddings = embeddings.learn_embeddings(g, embed_args) node_information = embeddings #print node_information ``` ### 5、正负节点采样 ``` train, train_status, test, test_status = sample.sample_single(g, args.testRatio, max_train_num=args.maxTrainNum) ``` ### 6、抽取节点对的封闭子 ``` net = until.nxG_to_mat(g) #print net train_graphs, test_graphs, max_n_label = subgraphs.singleSubgraphs(net, train, train_status, test, test_status, args.hop, args.maxNodesPerHop, node_information) print('# train: %d, # test: %d' % (len(train_graphs), len(test_graphs))) ``` ### 7、加载网络模型,并在classifier中配置相关参数 ``` cmd_args = cmd_opt.parse_args() cmd_args.feat_dim = max_n_label + 1 cmd_args.attr_dim = node_information.shape[1] cmd_args.latent_dim = [int(x) for x in cmd_args.latent_dim.split('-')] if len(cmd_args.latent_dim) == 1: cmd_args.latent_dim = cmd_args.latent_dim[0] model = classifier.Classifier(cmd_args) optimizer = optim.Adam(model.parameters(), lr=args.learningRate) ``` ### 8、训练和测试 ``` train_idxes = list(range(len(train_graphs))) best_loss = None for epoch in range(args.num_epochs): random.shuffle(train_idxes) model.train() avg_loss = loop_dataset(train_graphs, model, train_idxes, cmd_args.batch_size, optimizer=optimizer) print('\033[92maverage training of epoch %d: loss %.5f acc %.5f auc %.5f\033[0m' % (epoch, avg_loss[0], avg_loss[1], avg_loss[2])) model.eval() test_loss = loop_dataset(test_graphs, model, list(range(len(test_graphs))), cmd_args.batch_size) print('\033[93maverage test of epoch %d: loss %.5f acc %.5f auc %.5f\033[0m' % (epoch, test_loss[0], test_loss[1], test_loss[2])) ``` ### 9、运行结果 ``` average test of epoch 0: loss 0.62392 acc 0.71462 auc 0.72314 loss: 0.51711 acc: 0.80000: 100%|███████████████████████████████████| 76/76 [00:07<00:00, 10.09batch/s] average training of epoch 1: loss 0.54414 acc 0.76895 auc 0.77751 loss: 0.37699 acc: 0.79167: 100%|█████████████████████████████████████| 9/9 [00:00<00:00, 34.07batch/s] average test of epoch 1: loss 0.51981 acc 0.78538 auc 0.79709 loss: 0.43700 acc: 0.84000: 100%|███████████████████████████████████| 76/76 [00:07<00:00, 9.64batch/s] average training of epoch 2: loss 0.49896 acc 0.79184 auc 0.82246 loss: 0.63594 acc: 0.66667: 100%|█████████████████████████████████████| 9/9 [00:00<00:00, 28.62batch/s] average test of epoch 2: loss 0.48979 acc 0.79481 auc 0.83416 loss: 0.57502 acc: 0.76000: 100%|███████████████████████████████████| 76/76 [00:07<00:00, 9.70batch/s] average training of epoch 3: loss 0.50005 acc 0.77447 auc 0.79622 loss: 0.38903 acc: 0.75000: 100%|█████████████████████████████████████| 9/9 [00:00<00:00, 34.03batch/s] average test of epoch 3: loss 0.41463 acc 0.81132 auc 0.86523 loss: 0.54336 acc: 0.76000: 100%|███████████████████████████████████| 76/76 [00:07<00:00, 9.57batch/s] average training of epoch 4: loss 0.44815 acc 0.81711 auc 0.84530 loss: 0.44784 acc: 0.70833: 100%|█████████████████████████████████████| 9/9 [00:00<00:00, 28.62batch/s] average test of epoch 4: loss 0.48319 acc 0.81368 auc 0.84454 loss: 0.36999 acc: 0.88000: 100%|███████████████████████████████████| 76/76 [00:07<00:00, 10.17batch/s] average training of epoch 5: loss 0.39647 acc 0.84184 auc 0.89236 loss: 0.15548 acc: 0.95833: 100%|█████████████████████████████████████| 9/9 [00:00<00:00, 28.62batch/s] average test of epoch 5: loss 0.30881 acc 0.89623 auc 0.95132 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值