这篇文章首先介绍了多源跨网络节点分类(Cross-network node classification,CNNC),然后提出了一个新的基于多源选择的CNNC模型,即MSDS(基于多源域选择的跨网络节点分类框架)。本文主要贡献如下:
1、对于源域选择问题,本文提出了一种用于多源数据选择的新的网络分布相异性策略,该策略同时集成了三个常用的距离,分别是maximum mean discrepancy (MMD)distance 、 Wasserstein distance 、和Jensen-Shannon divergence (JS divergence),利用该策略可以选择可转移的源网络帮助对目标网络中的无标记节点进行分类。
2、对于多源域知识迁移问题,本文首先考虑多源特征(multi-source feature information)信息,使用特征信息对齐生成新的特征嵌入。本文基于图卷积网络GraphSAGE设计了一种参数转移策略,共享多个源网络上训练的学习参数,帮助预测目标网络中的无标记节点分类。这种策略能够最小化特征分布差异与跨网络共享网络不变知识
3、提出了一种新的基于特征转移的网络特征信息对齐方法,它通过最小化源网络和目标网络之间的几何和统计距离(geometrical and statistical distances)来对齐源网络和目的网络的特征分布,以生成新的特征信息嵌入。
4、设计了一种新的参数转移策略,在源网络上训练基于归纳学习的图卷积神经网络。具体来说,我们通过前向和后向传播过程来计算损失函数和更新参数,然后,通过参数转移来预测目标网络中的无标记节点,而不是从头开始训练
最后,本文在四个数据集进行了大量实验,验证了所提出的方法的准确性。
本文代码没开源,到底怎么弄得不太清楚
相关工作:
1、网络嵌入:现有方法基本都只考虑单个网络,没有考虑多源情况。
2、迁移学习:迁移学习可以利用源域中的丰富的标签信息提升在目标网络的性能,但值得注意的是,并不是所有的源域对性能都有帮助,也就是说可能有导致负迁移的网络。
MSDS具体内容:
定义:
多源域跨网络节点分类(Multi-Source CNNC)问题的定义:假设有节点带标记的网络集合Gs,节点不带标记的网络Gt,Gs由多个网络gs1,gs2....组成。在gs中,存在顶点集合Vs,边集Es,特征矩阵Xs,邻接矩阵As,以及与gs相关的标签集合Ys,用C来表示顶点的不同种类,n表示顶点的总数。对于Gt,仅有Vt,Et,Xt,At,m表示顶点总数。MSDS的目标是利用Gs中丰富的可转移知识,学习标签判别和不因网络改变的节点向量表示,最终分辨Gt中的无标记节点。
不同网络的网络维度(即节点数)、网络连接分布和节点特征可能各不相同。
网络分布差异的定义(Network Distribution Dissimilarity):假设是把X映射到Y的函数集合,那么网络P和Q之间的网络分布不相似度定义为,MMD,W,JS分别代表集成的三个方法最大最小归一化后的参数。JS散度避免了MMD和Wasserstein距离和过小的问题,而将特征归一化不用原始值是因为JS距离的范围是[0,1], 而MMD和Wasserstein距离的取值范围均为实数。
算出后可以根据该值从小到大将网络排序,然后选择前N个网络融合成大源域。(另外一说,本文没说有权重,就是直接组成一个大源)
特征信息对齐步骤的总体优化目标:
{network dist}marg和{network dist}cond分别代表边缘分布和条件分布,{network dist}marg+{network dist}cond代表加权分布对齐采用经典的Fisher线性判别分析(FLDA),用于保留局部流形信息,分子分母分别代表类内
MSDS框架:
该框架包括三个部分,即1)多源网络数据选择,2)特征信息对齐,以及3)空间信息聚合。
是pairwise transformation,分别是源域和目标域的
MSDS的主要思想有两个:(1)选择与目标网络分布距离较小的源网络;(2)利用所选源网络的数据丰富性和多样性来提高目标网络中节点分类的准确性。
1、多源域数据选择:从n个网络中基于分布差异dist(·,·)选择,然后把选择的N个源域融合成一个域
集成三种常用的距离,MMD、Wasserstein和JS距离,原因是前两者有特定方面的优势,可以通过求和的思想综合这种优势,而不同网络的节点的特征通常有相同的network embedding而不是相同的结构信息,通过集成这三种距离,可以选出一些与目标域差异更小的源域。
如图,通常网络嵌入与特征信息类似
2、 特征信息对齐
图卷积神经网络不能消除网络分布散度,图卷积神经网络不能直接在目标网络中进行节点分类,因此,需要将源网络数据的特征信息与目标网络数据的特征信息对齐,以尽量减少网络之间的分布差异。一般来说,特征信息对齐的目的是学习成对变换(即源网络和目标网络分别为Φ和Ψ),以最小化源网络和目标网络之间的差异
通过加权分布对齐和局部流形保存来学习两个成对变换(即Φ和Ψ),利用源网络中节点的特征信息和标签信息与目标网络的特征信息的融合来学习源网络和目标网络中节点的新的特征表示
懒得搞公式了,CSDN这公式编辑器用得太难受了,连word文档的编辑器都不如
3、空间信息聚合
在前向和后向传播过程中训练图神经网络来计算损失函数,更新融合源网络中的参数W,并执行参数传递来预测目标网络中的未标记节点。
首先在源网络上训练一个图神经网络GraphSAGE,通过聚合当前节点和邻近节点的新特征信息、空间信息和标签信息来学习节点嵌入,然后,通过参数共享来预测目标网络的节点标签,具体就是初始化GraphSAGE的参数(即W),进行前向传播,计算损失函数,进行后向传播,更新参数,直到达到预定的精度要求,再然后,利用目标网络的新特征信息、空间信息和从源网络传递的得到的参数(即W),应用预训练好的GraphSAGE预测目标网络的标签信息。
从组成上看,空间信息聚合模块包含嵌入生成、聚合器功能选择和参数学习三个主要部分。
嵌入生成:给定一个节点i,i的嵌入可以由当前节点和相邻节点的嵌入中聚合,⊕代表串联操作,Ni是i的邻居节点,hi和hj分别是i的当前节点嵌入和相邻节点嵌入,其中,AGG是对节点i的所有邻居嵌入进行聚合的聚合函数,W是权重参数,σ是非线性激活单元。嵌入指的是Embedding
聚合器功能选择:两种常用的,LSTM聚合器和池化聚合器,LSTM输入的排列必须有序,不过通过简单地将应用于随机邻居序列嵌入,能够在无序集上使用。而池化聚合器是一个对称的、可训练的聚合器函数,它首先对邻居集中的每个节点嵌入执行非线性变换。然后对每个计算的特征应用最大池算子。
参数学习:这是输出嵌入的损失函数,其中hi,i,和参数W以及聚合器函数通过SGD随机梯度下降法微调,损失函数鼓励相邻节点具有相似的嵌入,同时强制独立节点具有高度不同的嵌入,j为定长随机游走时出现在节点i附近的节点,Pk为负抽样分布,Q为负抽样个数。嵌入hi是基于节点局部邻域中包含的特征生成的,而不是为每个节点训练唯一的嵌入