node2vec文献出处_社交网络分析(五)-Node2Vec

Node2vec简述

继续万物皆可embedding之旅,在DeepWalk之后出现了Line和Node2vec两种改进算法,Line的两阶段方式个人觉得太过丑陋,因此直接跳到Node2vec,其考虑了BFS和DFS两种搜索策略,能够更充分的对图网络进行同质性和结构相似性的建模,因此也取得了非常好的结果。

Tips

首先作者阐明了在类似社交网络图结构中,在两种情况下,node的embedding需要非常的相似,第一是同质性,即node处在同一个社交团体中,下图中的u和s1,s2,s3,s4;第二是结构相似性,即社交群的中心节点或者是两个社交群之间的链接节点,下图中的u和s6。因此我们的采样方式需要针对这些情况作出更合理的采样,以此使得后续的skipgram能够对同质性和结构相似性作出较好的建模。

为什么BFS和DFS的搜索策略能够反映同质性和结构相似性呢。首先需要明确一点,同质性更强调节点与节点间的连接关系,而结构相似性不强调这一点,即使是非常远的节点,也可能具有非常相似的结构,但是基本不太可能具有同质性。BFS,广度搜索,可以对结构相似性作出更好的建模,因为结构相似的节点比如中心节点和桥节点的结构表达,仅仅需要观测其邻接节点就能够有一个很直观的刻画;而对于DFS,深度搜索,其更能在一个宏观的角度反映出一个节点与其周围节点(不一定是最近邻节点)的局部关系,需要多走一点,看多一点,variance高一点,才能了解整个局部关系,因此更适合社交群的建模。

通过控制参数来实现灵活的调整BFS和DFS自由度的采样算法,使得采样出的序列能够更好的反应同质性和结构相似性。

假设在0时刻,采样到的节点为t,在1时刻,采样到的节点为V,那么在2时刻,从V转移到节点x的概率是这样定义的:

需要注意的是,这里的距离的源节点是t而不是现在所处的节点V。参数p控制返回到源节点的概率,p值大的话,表示不容易进行重复采样,使得walk进行适度的向外探索,避免重复冗余。参数q控制BFS和DFS的程度,具体来说,q大于1,即在t节点,下一步更容易采样到距离源节点一跳的节点,即周围节点,倾向于BFS。而q小于1,下一步更容易采样到离源节点2跳的节点,倾向于DFS。在真正采样的过程中,这些转移概率是可以事先算好的,所以并不会影响采样的效率。确定完采样策略后,接下来的操作基本和DeepWalk别无二致了。

看一个toy example。上半图是p=1,q=0.5的采样学到的embedding的可视图,很明显是对同质性的刻画,对应DFS;下半图是p=1,q=2的可视图,很明显是对中心节点、桥节点和边缘节点的刻画,对应BFS。

最后引论文中的一句话作为总结 we observed that BFS can explore only limited neighborhoods. This makes BFS suitable for characterizing structural equivalences in network that rely on the immediate local structure of nodes. On the other hand, DFS can freely explore network neighborhoods which is important in discovering homophilous communities at the cost of high variance.

参考文献

Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2016: 855-864.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值