生成图
首先将癌症的每种组学数据根据Similarity Networks Fusion(SNF)生成以患者为节点,相似性为边的神经网络图,之后将组学数据进行迭代融合生成一张的患者相似性网络(融合原则是使用基于消息传递理论的非线性方法,弱相似性消失,强相似性添加到其他的网络中)
Reference:<Similarity network fusion for aggregating data types on a genomic scale>,2014,Nature methods,Wang B et al
图增强
在对比学习中,使用图像增强的方法能够增强图像的质量,使组学数据生成网络之间的相似关系得到相应的增强与削弱,提升数据的相关性,提升分类性能。使用数据增强的方法时时大多数都是在单一视图上进行人为的缩放训练集,下面介绍两种视图的数据增强,多视图的方法可以帮助构建更具有鲁棒性的学习模型。
1.拓扑视图:
节点丢失:在不影响图G的语义的情况下,丢弃给定图G的特定部分节点及其连接。每个节点的丢弃概率遵循均匀分布或任何其他分布。
随机边缘扰动:给定图G的原始连通性被随机添加或删除一定比例的边所扰乱。添加或移除操作遵循特定分布(例如,均匀分布)。
子图抽样:使用随机游走或其他方法从G中提取子图。G的语义被假定为在很大程度上保留在所提取的子图
图扩散:生成给定图G的广义扩散矩阵。扩散矩阵可以由个性化PageRank(PPR)或热内核生成,其中包含有关原始图的全局结构的信息。
2.特征视图
属性掩码:对给定图G的初始节点属性屏蔽或添加高斯噪声,假设缺失的部分节点属性对模型预测的影响很小。
基于属性的连接:在具有相似属性信息的节点之间创建连接。
Reference:<SMGCL: Semi-supervised Multi-view Graph Contrastive Learning>,Knowledge-Based Systems,2023,Hui Zhou et al
半监督图对比学习
对比学习是一种自监督方法,之前已经证明在标记数据不足的学习任务中表现良好,在图结构的核心任务就是训练编码器f:G(V,E,A,X),A是邻接矩阵,X是属性矩阵。通过对比损失捕获正数据对(v,v+),负数据对(v,v-)之间的相似性,将相似的样本对保持在一起,不相似的样本对远离。(即在潜在空间中的正数据对之间的相似性远大于负数据对之间的相似性)。
在半监督的学习任务中,标记的节点数据集设置为Vl,其对应的标签{y1,y2,y3.......}未标记节点的数据集设置为Vu+Vl,
图对比学习的方法:
- Deep Graph InfoMax:将deep InfoMax 扩展到图形,并通过以无监督的方式最大化对比局部-全局对之间的互信息(MI)来学习节点表示。Reference:Deep graph infomax, Proceedings of the 7th International Conference on Learning Representations, 2019,P. Velickovic et al
- InfoGraph :通过在不同尺度下最大化图级和子结构表示之间的MI来学习图级表示。Reference:InfoGraph: Unsupervised and semi-supervised graph-level representation learning via mutual information maximization,Proceedings of the 8th International Conference on Learning Representations, 2020,F.Sun et al
- MVGRL :通过最大化不同视图中的对比“节点-图”对的表示之间的MI来学习节点级和图级表示。Reference:Contrastive multi-view representation learning on graphs, in: Proceedings of the 37th International Conference on Machine Learning, in: Proceedings of Machine Learning Research, 2020,K.Hassani et al
- GRACE :通过最大化两个备选图视图之间的节点表示的一致性来实现节点级对比学习。Reference:Deep graph contrastive representation learning, 2020, CoRR ,Y. Zhu et al
- CG 3:具有图生成的对比GCN通过考虑同一类别中的标签导向数据对之间的一致性来实现半监督对比学习。Reference:Contrastive and generative graph convolutional networks for graph-based semi-supervised learning, in: Proceedings of the Thirty-Fifth AAAI Conference on Artificial Intelligence, 2021, S. Wan et al,
- DualGraph :通过将对比学习的概念与对偶学习相结合而设计,它由预测模块和检索模块组成,以促进未标记图上的模块间一致性。Reference:DualGraph:Improving semi-supervised graph classification via dual contrastive learning, in: Proceedings of the IEEE 38th International Conference on Data Engineering, ICDE, 2022, X. Luo et al
- DSGC :通过从双曲空间和欧氏空间构建对比对来执行图对比学习。还有一些其他类型的用于图数据的自监督学习方法。Reference:Dual space graph contrastive learning, in: Proceedings of the ACM Web Conference 2022, H. Yang et al
- SMGCL:提出了多视图图对比框架,集成拓扑和特征视图的信息,以半监督的方式提取监督信息,引入一个半监督GNN与标签增强模块,以提高学习的图形标识的鉴别能力。Reference:SMGCL: Semi-supervised Multi-view Graph Contrastive Learning,Knowledge-Based Systems,2023,Hui Zhou et al
训练分类任务
使用降维编码器(GNN,GCN)将原始图G作为输入,预测图中的未标记节点的标签