论文学习笔记：node2vec: Scalable Feature Learning for Networks

最新推荐文章于 2023-02-26 22:19:36 发布

weixin_40675092

最新推荐文章于 2023-02-26 22:19:36 发布

阅读量117

点赞数

分类专栏：图模型图表示

本文链接：https://blog.csdn.net/weixin_40675092/article/details/118612432

版权

图模型同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

图表示

3 篇文章 0 订阅

订阅专栏

表征学习
捕获网络中连接模式的多样性
node2vec：学习网络中节点的连续特征表达，将节点映射到一个低维特征空间。最大化的保留节点邻域。在多标签分类和边预测优于当前的state-of-the-art技术。
亮点：通过引入两个参数 p 和 q, 将宽度优先搜索和深度优先搜索引入了随机游走序列的生成过程 . 宽度优先搜索注重邻近的节点并刻画了相对局部的一种网络表示 , 宽度优先中的节点一般会出现很多次 , 从而降低刻画中心节点的邻居节点的方差 ; 深度优先搜索反应了更高层面上的节点间的同质性 .

paper做出了以下贡献：
1.提出了node2vec，一个有效的拓展性的网络特征学习算法，通过SGD高效优化一个新颖的网络关注和邻域保证目标函数
2.我们展示了node2vec如何符合网络科学的既定原则，提供了符合不同等价的灵活的发现表达。
3.将node2vec其他特征表达方法。
4.用multi-label分类和几个真实数据集的连接预测经验性的评估了node2vec

无监督的特征学习通常利用图的各种矩阵表示的光谱特性，尤其是拉普拉斯和邻接矩阵。线性代数角度这些方法都是降维方法，一些线性和非线性的降维方法被提出，这些方法都有计算和统计方面的缺陷。

受Skip-gram模型的启发，最近的研究将网络表示为“文档”。文档是将词的序列，因此也要将节点序列化

Feature Learning Framework
公式化为一个最大似然优化问题。

两个基本假设：
1.条件独立性假设
2.特征空间对称性假设

亮点： $p q$ random walk采样

source node u的邻域 $N_S(u)$ 的抽样，不一定限制非要是一阶邻域。
经典的搜索策略
BFS：广度搜索， $N_S(u)$ 被限制在u的直接邻域
DFS：深度搜索，邻域的序列组成是抽样从u节点随着距离增长
image_1cjkfj47tqhvcu01mdq1fkl92q9.png-79.9kB

warker刚刚从节点t处走到节点v处，现在在节点v处，下一步候选节点x1，x2，x3，t，那么节点t到节点x1的距离为1，节点t到它本身的距离为0（注意random warlker有可能往回走的），到x2，x3的距离都为2
image_1cjl6m0ocb3h8lu1ret1snh1kbcm.png-77.4kB
参数 $p$ 和 $q$ 控制walker步行探索和离开起始点邻域的速度。

return参数 $p$ ，参数p控制walker立即返回revisiting节点的概率。设置一个很大的p（>max(q, 1)），可以确保抽样到已经访问过的节点
In-out参数 $q$ ，参数q控制采样‘inward’和‘outward’节点的偏好。如果q>1，偏向于选择离t节点近的x1，如果q<1，偏向于选择离t节点较远的节点x2、x3.

random walk的好处，降低时间和空间复杂度。储存直接邻居的空间复杂度是 $O (∣ E ∣)$ ， random warlk是 $O(a^2|V|)$ ，其中，a是图中节点的平均度。

学习edge特征
link prediction中，我们预测网络中的两个节点是否有连接。random walks是基于潜在网络中两个节点的连接结构的。因此使用bootstraping的方法推广到节点对。

给定节点u和v，在两个节点的特征 $f (u)$ 和 $f (v)$ 上定义二进制操作，生成一个表达 $\mathcal{g}(u,v)$ 。我们希望这个操作广泛的定义在有边，甚至是没有边的所有节点对上。这样这个representations才能对预测的节点之间是否存在边有用。一些二进制操作的选择如表
Screenshot from 2018-08-02 19:36:04.png-43.6kB

实验

Les Misérables network

网络的节点77个，边254个，设node embedding向量的长度d=16，使用node2vec学习网络中每个节点的特征表达。基于特征做k-means聚类。

下图中(top)设置p=1，q=0.5，发现了子图中彼此互动频繁的节点cluster/communities。由于字符之间的边是基于同性的，所以我们认为这种特征是与趋同性密切相关的。
image_1ck47pmt01hdmalg1bg5bv36un9.png-249.6kB
为了挖掘拥有相同结构特征的节点，设置p=1，q=2, node2vec得到节点的特征，并聚类。得到簇的节点的补充分配，bottom中颜色对应于结构等价。蓝色的节点被聚到一起，它们作为不同sub-plots之间的桥梁。黄色节点代表在边缘拥有有限的边的特征。

evaluation

使用标准的有监督学习任务：节点的多标签分类和边的连接预测，来评估node2vec学习到的特征。使用一些特征学习算法对照：

Multi-label classification

在多标签分类中，有限集 $\mathcal{L}$ 中每个节点有一个或多个标签。训练阶段，能观察到一定比率的节点和标签。任务是预测剩下的节点的标签。使用的数据集分别是BlogCatalog、Protein-Protein Interactions、Wikipedia，所有这些网络都表现出同质性和结构等同性的公平组合。

将训练的特征输入l2正则的逻辑回归，F1-score作为评价指标。
image_1ck498tra1acchfold3saaarm.png-98.1kB

从不同train-test比方面比较模型表现
image_1ck4a85k31nh7rfp1mk91gcc1t5k13.png-248.2kB

调参

image_1ck4bqln540h1in55purn412t1g.png-214.3kB
介绍一个全局最优化的方法：随机游走算法(Random Walk)

Link prediction

将给的数据集中的部分边移除。随机移除50%

image_1ck4c5f3d4u61aevgtgp2smh71t.png-250.3kB

weixin_40675092

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文学习笔记：node2vec: Scalable Feature Learning for Networks

表征学习捕获网络中连接模式的多样性node2vec：学习网络中节点的连续特征表达，将节点映射到一个低维特征空间。最大化的保留节点邻域。在多标签分类和边预测优于当前的state-of-the-art技术。亮点：通过引入两个参数 p 和 q, 将宽度优先搜索和深度优先搜索引入了随机游走序列的生成过程 . 宽度优先搜索注重邻近的节点并刻画了相对局部的一种网络表示 , 宽度优先中的节点一般会出现很多次 , 从而降低刻画中心节点的邻居节点的方差 ; 深度优先搜索反应了更高层面上的节点间的同质性 .paper.
复制链接

扫一扫