论文研读1

最新推荐文章于 2020-10-04 15:44:15 发布

相国大人

最新推荐文章于 2020-10-04 15:44:15 发布

阅读量2.3k

点赞数 1

本文链接：https://blog.csdn.net/github_36326955/article/details/72528656

版权

MachineLearning 同时被 3 个专栏收录

24 篇文章 3 订阅

订阅专栏

概率图模型

22 篇文章 4 订阅

订阅专栏

DeepLearning

22 篇文章 8 订阅

订阅专栏

[1] B. Perozzi, R. Al-Rfou, and S. Skiena. DeepWalk: Online learning of social representations. In KDD, 2014.
[2] J. Tang, M. Qu, M. Wang, M. Zhang, J. Yan, and Q. Mei. LINE: Large-scale Information Network Embedding. In WWW, 2015.
[3] Grover, Aditya, and Jure Leskovec. “node2vec: Scalable feature learning for networks.” Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2016.

[1]

1.问题的引入

文章的初衷，普通的机器学习方法适合于小规模样本的训练，对于规模巨大的样本集来说，并不意味着性能一定同步上升。考虑到在概率图模型中，我们可以根据网络图中蕴含的结构独立性质，化简联合概率。这给了我们灵感：对于规模巨大的样本，我们也可以把这些样本映射到相应的网络中，根据网络中的结构性质，来化简训练过程，提高算法性能。这就要求，我们需要找到一种合适的节点到向量的映射策略，使得这种映射可以尽可能的捕捉到拓扑结构信息。

2. 问题的定义

令 $G_L=(V,E,X,Y)$ 是一个带有标签的社会网络。 $X \in \mathbb{R}^{|V| \times S}$ , $S$ 是特征空间的维度大小。 $Y \in \mathbb{R}^{|V| \times |\mathcal{Y}|}$ ，其中 $\mathcal{Y}$ 是标签集合。

在传统的机器学习分类场景中，哦我们的目标是学习一个分类策略。它可以将 $X$ 映射到标签集合 $\mathcal{Y}$ 中，而在本文中，我们在此基础上，还可以充分利用 $(V,E)$ 所确定的网络中，样本之间的独立性特征，来取得更好的效果。在一般文献中，我们把类似的分类过程叫做collective classification problem(或者叫做relational classification),处理这种问题的传统方法是把分类问题看作是无向马尔科夫网络中的推理问题，使用迭代近似推理算法（如iterative classification algorithm， Gibbs Sampling , or label relaxation ）来计算给定网络结构下的标签后验概率分布。

本文提出了不同的方法，来捕获网络中的拓扑信息。采用无监督的方法，学习从图结构中捕获到的特征，这些特征与标签的分布式独立的。

这样做的好处是，结构特征与标签相互独立，避免了错误的传导，同时这种表达也可以用于该网络下的多分类问题。

3. 核心思想

DeepWalk将NLP中的模型移植到了图中.具体来说，如果把单词看作是节点，那么一个单词的上下文相当于网络中的neighborhoods，单词与单词之间的相关性相当于网络中节点与节点的边和边的权重。基于单词造成一句话，相当于在网络中随机游走的一条路线上的节点序列 $W_{v_i}$ .这种移植是合理的，原因在于在文本中，单词出现的频率服从幂律分布，同样的，对于网络中的节点而言，其出现在随机游走序列中的频率也是服从幂律分布的。

我们定义 $W_{v_i}$ 表示从节点 $v_i$ 出发的一条随机游走路线上的节点序列。用 $W_{v_i}^k$ 表示这个序列上的第k个点，显然， $W_{v_i}^{k+1}$ 表示的是这个随机游走过程走到节点 $v_k$ 时候，从 $v_k$ 的neighbors中选择的下一个节点。为了捕获网络的社区等拓扑性质，我们的随机游走应当是短路径下的游走，即 short random walk。

语言模型中的N-gram算法：

m i n Φ - l o g P r (v i - m, \dots, v i + m ∖ v i | v i)

$min_\Phi -logPr(v_{i-m},\cdots,v_{i+m}\setminus v_i|v_i)$
这个公式的意义是，给定一个单词，预测它的邻域的概率。我们希望让这个概率最大化。通过最优化这个问题，得到合适的语言模型。

由于我们希望得到的是将节点 $v_i$ 映射为features的方法（也就是映射表格） $\Phi$ 。因此，我们对这个模型做如下修改:

m i n Φ - l o g P r (v i - m, \dots, v i + m ∖ v i | Φ (v i))

$min_\Phi -logPr(v_{i-m},\cdots,v_{i+m}\setminus v_i|\Phi (v_i))$
显然的，在网络中，具有相同结构的节点，会有相近的随机游走策略，因此也会得到相近的概率。所以，上面这个最优化问题，将可以得到有效的

Φ $\Phi$ ，它可以让我们捕获到节点中局部图结构中的相似性特征。
这里写图片描述

这里写图片描述

几点说明：算法2中的第3行隐含了公式2中条件独立性的假设。此外，第三行的这个概率表达式，本文采用了层次softmax模型。即：
这里写图片描述

这里写图片描述

文献[2]

1. introduction

1.文献24的一些问题：

1，保存的是网络的局部信息，全局信息没有保存

2，目标函数是从NLP中移植过来的，不是对网络量身定制，其合理性有待商榷

2. LINE模型

一阶近似和二阶近似：本文把直接连边作为近似判据称之为“一阶近似”，而把共享相同邻居作为近似判据称之为”二阶近似“。
这里写图片描述

3.边采样

即便有了一个优化目标，对大规模网络做优化也是一个很有挑战性的问题。目前比较好的方法是随机梯度下降。但是直接使用这个方法，在实际网路中是有问题的。这是因为在很多网络中，边的权重通常方差很大，例如对一个词对网络，词对儿出现的频率可能会从1到几千万。这些边的权重将会乘进梯度公式中，导致梯度爆炸，影响性能。为了解决这个问题，本文提出了一个精巧的边采样方法。我们根据边的权重，构造与其成比例的概率，依照这个概率对边进行采样。将采样的边当做二值边，用于模型更新。使用这种方法，优化目标仍然不变，但是边的权重不再对梯度造成影响。

3. problem definition

Definition 2. (First-order Proximity)

The first-order proximity in a network is the local pairwise proximity between two vertices. For each pair of vertices linked by an edge (u; v), the weight on that edge, wuv, indicates the firstorder proximity between u and v. If no edge is observed between u and v, their first-order proximity is 0.

Definition 3. (Second-order Proximity)

The secondorder proximity between a pair of vertices (u; v) in a network is the similarity between their neighborhood network structures. Mathematically, let $p_u = (w_{u,1}, \cdots , w_{u,|V|} )$ denote the first-order proximity of u with all the other vertices, then the second-order proximity between u and v is determined by the similarity between $p_u$ and $p_v$ . If no vertex is linked from/to both u and v, the second-order proximity between u and v is 0.

We investigate both first-order and second-order proximity for network embedding, which is defined as follows.

Definition 4. (Large-scale Information Network Embedding)

Given a large network G = (V; E), the problem of Large-scale Information Network Embedding aims to represent each vertex $v \in V$ into a low-dimensional space $R^d$ , i.e., learning a function $f_G : V \rightarrow R^d, where d \ll |V|$ . In the space $R^d$ , both the first-order proximity and the second-order proximity between the vertices are preserved

4. LINE模型

4.1 LINE with First-order Proximity

for each undirected edge (i,j), we define the joint probability between vertex $v_i,v_j$ as follows

p 1 (v i, v j) = 1 1 + e x p ( - u T i \to . u j \to )

$p_1(v_i,v_j)=\frac{1}{1+exp(-\vec{u_i^T}.\vec{u_j})}$

$\vec{v_i} \in R^d$ 是结点的低维度向量表示。上面的公式定义了结点对的概率分布。另一方面，他们的经验分布可以定义为：

p ̂ 1 (i, j) = ω i j W

$\hat{p}_1(i,j)=\frac{\omega_{ij}}{W}$
这样，我们就可以得到一个最优化函数：

O 1 = d i s t a n c e (p ̂ 1 (., .), p 1 (., .))

$O_1=distance(\hat{p}_1(.,.),p_1(.,.))$
这个距离衡量的是两个分布的距离，因此我们可以采用KL-散度来完成：

O 1 = - \sum (i, j) \in E ω i j l o g p 1 (v i, v j)

$O_1=-\sum_{(i,j)\in E}\omega_{ij}log p_1(v_i,v_j)$
通过找到所有的

ui→ $\vec{u_i}$ ，我们就找到了结点的低维度表达。

4.2 LINE with Second-order Proximity

二节相似性适用于有向图和无向图。它表达的是，拥有相同连接点的结点彼此更为相近。这些连接点称之为“上下文”，拥有相近上下文的结点彼此更相近。

对于结点i，当它作为某些结点的上下文时，我们用 $\vec{u_i^{'}}$ ,表示,当i结点作为待研究结点时，用 $\vec{u_i}$ 表示。这样我们可以有如下概率分布：

p 2 (v j | v i) = e x p ( u ' j \to . u i \to ) \sum | V | k = 1 e x p ( u ' k \to . u i \to )

$p_2(v_j|v_i)=\frac{exp(\vec{u_j^{'}}.\vec{u_i})}{\sum_{k=1}^{|V|}exp(\vec{u_k^{'}}.\vec{u_i})}$
另一方面，他们的经验分布可以定义为：

p̂ 2(vj|vi)=ωijdi $\hat{p}_2(v_j|v_i)=\frac{\omega_{ij}}{d_i}$

这样，我们就可以得到一个最优化函数：

O 2 = - \sum (i, j) \in E ω i j l o g p 2 (v i | v j)

$O_2=-\sum_{(i,j)\in E}\omega_{ij}log p_2(v_i|v_j)$

对于4.1节和4.2节，我们可以采取分别优化的方法，得到最终的U矩阵。也可以采用联合优化的方法，这是本文以后的工作。

[3]

1. 问题的引入

前面的两篇文献中，我们可以看见这样的结论：

结点到结点：一阶相似性；这是第一篇文献主要解决的问题

结点的邻居：二阶相似性：这是第二篇文献主要解决的问题
这里写图片描述

除此之外，我们注意到，在上面的示意图中，结点u和结点 $s_6$ 虽然没有直接连边（不符合一阶相似性），他们的邻接结点集合也不相似（不符合二节相似性），但是这两个结点分别处在两个社区之中，且他们都充当了hub结点（中心结点）。属于同一个社区，这叫做homophily(同质性)，属于同样的结构角色，这是结构等价性的一种。现实网络中往往是这两种性质的混合。因此，本文希望找到更好的方法，能够捕捉到结点的结构等价性。即，“三阶相似性”

2. 核心思想

本文的核心思想，与第一篇相似，也是基于NLP中Skip-gram算法的移植。不同的是，本文对随机游走策略做了修改。

2.1 算法核心

这里写图片描述

可以看到，算法的框架与前面的论文是相近的。需要注意的是这个 $N_S(u)$ ，是 $u$ 的neighbors,但是对这个词的一般理解中，我们往往认为neighbors是结点的直接邻居。事实上，本文中的neighbors更像是context上下文。它指的是，根据采样策略S得到的结点。因此，这里的 $N_S(u)$ 与采样策略是密切相关的。接下来，我们就来探讨两种最基本的采样策略：深度优先搜索和广度优先搜索。本文采用的是对这两种策略的兼容方法：2阶随机游走算法。

2.2 搜索策略研究

本小节的目的，是希望说明，BFS和DFS对同质性（homophily ）和结构等价性（structural equivalence ）的影响。由于本文的目标是希望捕获这两种性质。因此有必要研究两种基本搜索策略对这两种性质的挖掘能力。

首先简要说明什么是同质性和结构等价性：

同质性：

Under the homophily hypothesis nodes that are highly interconnected and belong to similar network clusters or communities should be embedded closely together.

结构等价性：

under the structural equivalence hypothesis nodes that have similar structural roles in networks should be embedded closely together. Importantly, unlike homophily, structural equivalence does not emphasize connectivity;

BFS对结构等价性的挖掘

通过BFS得到的nerghborhoods采样更容易感知结构等价性。直观上来说，为了确定结构等价，我们必须充分的刻画待研究结点的local neighbohoods。（请注意，我们之前说过，本文的neighborhoods与我们常见的含义不同，更像是context.因此这里用local neighborhoods来表达我们一般意义上理解的“邻居”）

例如，基于网络角色（桥还是中心结点等等）的结构等价可以通过观测直接邻居来推断。因此，通过限制搜索的范围到结点附近，BFS可以实现对每一个结点邻居的微观视角上的刻画。

BFS的另一个好处是，如果我们对每个结点都用一遍BFS，那么这意味着会有很多结点重复考察多次，这有助于提高结点分布的稳定性。当然，与之对应的缺点是，给定阈值K，我们可能只会遍历到一小部分结点。

DFS对同质性的挖掘

DFS可以所搜到距离源节点更远的地方。因此采样的结点更容易反应宏观视角，这有助于推断基于同质性的社区结构。

2.3 node2vec

随机游走：
这里写图片描述

有偏搜索

之前我们令 $\pi_{vx}=\omega_{vx}$ ，现在我们在权重上增加一个控制系数，用于控制随机游走的快慢： $\pi_{vx}=\alpha_{pq}(t,x).\omega_{vx}$ ,其中:
这里写图片描述

Intuitively, parameters p and q control how fast the walk explores and leaves the neighborhood of starting node u. In particular, the parameters allow our search procedure to (approximately) interpolate between BFS and DFS and thereby reflect an affinity for different notions of node equivalences.

结合示意图，我们可以看到参数p控制了立即折返的可能性，因此我们称它为折返系数（return parameter）。当p取值很大时，这意味着随机游走不太可能出现折返现象。反之，若p取值很小，那么折返现象会比较明显。这意味着随机游走会局限在起点周围。

参数q控制了搜索策略，直观上看，当q取值很大时，随机游走更倾向于选择距t结点较近的结点。这一过程与BFS的行为类似。反之，若q取值很小时，随机游走更倾向于选择距离t结点更远的结点，这相当于DFS。从这个角度来看，参数q表达了我们搜索的策略，是远离(outward)源节点还是接近（inward）源节点，因此我们称参数q为进出参数（in-out parameter）

通过刚才的分析，我们发现，本文通过设定不同的参数p,q,可以成功模拟BFS和DFS过程，从而捕获到网络的同质性特征和结构等价性特征。接下来我们对node2vec算法做一般性描述：
这里写图片描述

几点说明：

什么是alias sample?

问题：比如一个随机事件包含四种情况，每种情况发生的概率分别为： $1/2,1/3,1/12,1/12$ ，问怎么用产生符合这个概率的采样方法。

最容易想到的方法：

产生0-1之间的一个随机数，如若落在0~ 1/2之间就是事件A，落在1/2-5/6之间就是事件B，落在5/6-11/12之间就是事件C，落在11/12-1之间就是事件D。
但是这样的复杂度，如果用BST树来构造上面这个的话，时间复杂度为 $O(logN)$ ，有没有时间复杂度更低的方法?

Alias Method

将四个事件排成4列：

按照均值1/4进行归一化：

总面积为N，将其分割为 $1\times N$ 的长方形，原则是，每一列最多只能出现两个事件。

设置两个数组:Prob和Alias.其中Prob数组存放着第i列中，事件i占的面积比例。即Prob=[2/3,1,1/3,1/3].Alias中存放着第i列中非事件i的事件标号，即Alias=[2,NULL,1,1]

产生两个随机数，第一个为1-N之间的整数，用于选择第i列。第二个随机数为0-1之间，判断其与Prob[i]的大小，如果比Prob[i]小，则采样i，否则采样Alias[i]

3. 实验

3.1 同质性和结构等价性的检验

这里写图片描述

当我们设定参数p=1,q=0.5时候，图如top。可以看到相同颜色的结点聚在一起，此时相同颜色表达的是同一个社区的概念homophily 。

当我们设定参数p=1,q=2时候，图如button。可以看到此时相同颜色表达的是同一个结构功能即结构等价性的概念。

3.2 多标签分类

对比算法：

Spectral clustering

This is a matrix factorization approach in which we take the top d eigenvectors of the normalized Laplacian matrix of graph G as the feature vector representations for nodes.
DeepWalk

This approach learns d-dimensional feature representations by simulating uniform random walks. The sampling strategy in DeepWalk can be seen as a special case of node2vec with p = 1 and q = 1.
LINE

This approach learns d-dimensional feature representations in two separate phases. In the first phase, it learns d=2 dimensions by BFS-style simulations over immediate neighbors of nodes. In the second phase, it learns the next d=2 dimensions by sampling nodes strictly at a 2-hop distance from the source nodes。

数据集：BlogCatalog, Protein-Protein Interactions, Wikipedia

分类策略：逻辑斯蒂回归

分类效果：
这里写图片描述

说明：

什么是Macro/Micro-F1 score?

TP：正例判为正例

FP: 负例判为正例

FN: 正例判为负例

TN: 负例判为负例

准确率： $P=\frac{TP}{TP+FP}$ ，”你猜的正例中有几个是对的？”

召回率： $R=\frac{TP}{TP+FN}$ ，“正例中，你猜对几个？”

$F1=\frac{2PR}{P+R}$

我们现在将数据集分成N组:

Micro-准确率:

$Micro-P=\frac{\sum TP_i}{\sum (TP_i+FP_i)}$

Micro-召回率：

$Micro-R=\frac{\sum TP_i}{\sum (TP_i+FN_i)}$

Micro-F1 score:

$Micro-F1=\frac{2Micro-P.Micro-R}{Micro-P+Micro-R}$

Macro-准确率：

$Macro-P=\frac{\sum P_i}{N}$

Macro-召回率：

$Macro-R=\frac{\sum R_i}{N}$

Macro-F1 score:

$Macro-F1=\frac{2Macro-P.Micro-R}{Macro-P+Micro-R}$

3.3 链路预测

这里写图片描述

相国大人

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文研读1

论文研读文献24[24] B. Perozzi, R. Al-Rfou, and S. Skiena. DeepWalk: Online learning of social representations. In KDD, 2014. 1.问题的引入文章的初衷，普通的机器学习方法适合于小规模样本的训练，对于规模巨大的样本集来说，并不意味着性能一定同步上升。考虑到在概率图模型中，我们可以根据网络图
复制链接

扫一扫