机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）

最新推荐文章于 2024-07-24 14:26:38 发布

UQI-LIUWJ

最新推荐文章于 2024-07-24 14:26:38 发布

阅读量554

点赞数

分类专栏：论文笔记文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_40206371/article/details/132713387

版权

275 篇文章 69 订阅

订阅专栏

2016 KDD

1 intro

随机游走是一种自监督学习的embedding方法，不需要利用节点标签也不需要节点的特征，训练出来的embedding也不依赖于任何的特定任务
首先随机选择一个邻居节点，走到该处再随机选择一个邻居，重复length次
- length是指随机游走的长度
- 使用随机游走从起始节点到终止节点的概率值，实际上就可以用来表示相似度
  - 也就是说，从u到v节点的概率值，应该正比于u与v节点embedding之后的点乘结果

根据某种策略R，从图上的每个点，执行一些随机游走
对图上的每个点u，收集相对应的点集
- 是从u点出来的各条随机游走路径上的点集
- 中可能会有重复的元素
根据对数概率，优化embedding
- 目标：最小化损失函数L
  - ——>最大化在中的v与u之间的log(P(v|Zu))
  - ——>最大化在u随机游走路径上的v与u之间的P(v|Zu)
    ——>在u随机游走路径上的v，尽量地和u相似（)

在寻找随机游走的过程中，我们可以通过一次游走（深度优先遍历的算法，路径长），寻找出多个节点的游走路径（路径短）

上述算法有一个问题，就是我计算P(v|Zu)时，分母还是需要每一对node 都计算一边，那么还是 O(|V|^2) 的时间复杂度

解决方法：负采样

通过平均、哈达玛积（元素相乘）、L1、L2计算方式表示边的embedding

关注