论文学习笔记:node2vec

表征学习
捕获网络中连接模式的多样性
node2vec:学习网络中节点的连续特征表达,将节点映射到一个低维特征空间。最大化的保留节点邻域。在多标签分类和边预测优于当前的state-of-the-art技术。
亮点:通过引入两个参数 p 和 q, 将宽度优先搜索和深度优先搜索引入了随机游走序列的生成过程 . 宽度优先搜索注重邻近的节点并刻画了相对局部的一种网络表示 , 宽度优先中的节点一般会出现很多次 , 从而降低刻画中心节点的邻居节点的方差 ; 深度优先搜索反应了更高层面上的节点间的同质性 .

paper做出了以下贡献:
1.提出了node2vec,一个有效的拓展性的网络特征学习算法,通过SGD高效优化一个新颖的网络关注和邻域保证目标函数
2.我们展示了node2vec如何符合网络科学的既定原则,提供了符合不同等价的灵活的发现表达。
3.将node2vec其他特征表达方法。
4.用multi-label分类和几个真实数据集的连接预测经验性的评估了node2vec

无监督的特征学习通常利用图的各种矩阵表示的光谱特性,尤其是拉普拉斯和邻接矩阵。线性代数角度这些方法都是降维方法,一些线性和非线性的降维方法被提出,这些方法都有计算和统计方面的缺陷。

受Skip-gram模型的启发,最近的研究将网络表示为“文档”。文档是将词的序列,因此也要将节点序列化

Feature Learning Framework
公式化为一个最大似然优化问题。

两个基本假设:
1.条件独立性假设
2.特征空间对称性假设

亮点: p q p q pq random walk采样

source node u的邻域 N S ( u ) N_S(u) NS(u)的抽样,不一定限制非要是一阶邻域。
经典的搜索策略
BFS:广度搜索, N S ( u ) N_S(u) NS(u)被限制在u的直接邻域
DFS:深度搜索,邻域的序列组成是抽样从u节点随着距离增长
image_1cjkfj47tqhvcu01mdq1fkl92q9.png-79.9kB

warker刚刚从节点t处走到节点v处,现在在节点v处,下一步候选节点x1,x2,x3,t,那么节点t到节点x1的距离为1,节点t到它本身的距离为0(注意random warlker有可能往回走的),到x2,x3的距离都为2
image_1cjl6m0ocb3h8lu1ret1snh1kbcm.png-77.4kB
参数 p p p q q q控制walker步行探索和离开起始点邻域的速度。

return参数 p p p,参数p控制walker立即返回revisiting节点的概率。设置一个很大的p(>max(q, 1)),可以确保抽样到已经访问过的节点
In-out参数 q q q,参数q控制采样‘inward’和‘outward’节点的偏好。如果q>1,偏向于选择离t节点近的x1,如果q<1,偏向于选择离t节点较远的节点x2、x3.

random walk的好处,降低时间和空间复杂度。储存直接邻居的空间复杂度是 O ( ∣ E ∣ ) O(|E|) O(E), random warlk是 O ( a 2 ∣ V ∣ ) O(a^2|V|) O(a2V),其中,a是图中节点的平均度。

学习edge特征
link prediction中,我们预测网络中的两个节点是否有连接。random walks是基于潜在网络中两个节点的连接结构的。因此使用bootstraping的方法推广到节点对。

给定节点u和v,在两个节点的特征 f ( u ) f(u) f(u) f ( v ) f(v) f(v)上定义二进制操作,生成一个表达 g ( u , v ) \mathcal{g}(u,v) g(u,v)。我们希望这个操作广泛的定义在有边,甚至是没有边的所有节点对上。这样这个representations才能对预测的节点之间是否存在边有用。一些二进制操作的选择如表

实验

Les Misérables network

网络的节点77个,边254个,设node embedding向量的长度d=16,使用node2vec学习网络中每个节点的特征表达。基于特征做k-means聚类。

下图中(top)设置p=1,q=0.5,发现了子图中彼此互动频繁的节点cluster/communities。由于字符之间的边是基于同性的,所以我们认为这种特征是与趋同性密切相关的。

为了挖掘拥有相同结构特征的节点,设置p=1,q=2, node2vec得到节点的特征,并聚类。得到簇的节点的补充分配,bottom中颜色对应于结构等价。蓝色的节点被聚到一起,它们作为不同sub-plots之间的桥梁。黄色节点代表在边缘拥有有限的边的特征。

evaluation

使用标准的有监督学习任务:节点的多标签分类和边的连接预测,来评估node2vec学习到的特征。使用一些特征学习算法对照:

Multi-label classification

在多标签分类中,有限集 L \mathcal{L} L中每个节点有一个或多个标签。训练阶段,能观察到一定比率的节点和标签。任务是预测剩下的节点的标签。使用的数据集分别是BlogCatalog、Protein-Protein Interactions、Wikipedia,所有这些网络都表现出同质性和结构等同性的公平组合。

将训练的特征输入l2正则的逻辑回归,F1-score作为评价指标。
image_1ck498tra1acchfold3saaarm.png-98.1kB

从不同train-test比方面比较模型表现
image_1ck4a85k31nh7rfp1mk91gcc1t5k13.png-248.2kB

调参

image_1ck4bqln540h1in55purn412t1g.png-214.3kB
介绍一个全局最优化的方法:随机游走算法(Random Walk)

Link prediction

将给的数据集中的部分边移除。随机移除50%

image_1ck4c5f3d4u61aevgtgp2smh71t.png-250.3kB

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值