表征学习
捕获网络中连接模式的多样性
node2vec:学习网络中节点的连续特征表达,将节点映射到一个低维特征空间。最大化的保留节点邻域。在多标签分类和边预测优于当前的state-of-the-art技术。
亮点:通过引入两个参数 p 和 q, 将宽度优先搜索和深度优先搜索引入了随机游走序列的生成过程 . 宽度优先搜索注重邻近的节点并刻画了相对局部的一种网络表示 , 宽度优先中的节点一般会出现很多次 , 从而降低刻画中心节点的邻居节点的方差 ; 深度优先搜索反应了更高层面上的节点间的同质性 .
paper做出了以下贡献:
1.提出了node2vec,一个有效的拓展性的网络特征学习算法,通过SGD高效优化一个新颖的网络关注和邻域保证目标函数
2.我们展示了node2vec如何符合网络科学的既定原则,提供了符合不同等价的灵活的发现表达。
3.将node2vec其他特征表达方法。
4.用multi-label分类和几个真实数据集的连接预测经验性的评估了node2vec
无监督的特征学习通常利用图的各种矩阵表示的光谱特性,尤其是拉普拉斯和邻接矩阵。线性代数角度这些方法都是降维方法,一些线性和非线性的降维方法被提出,这些方法都有计算和统计方面的缺陷。
受Skip-gram模型的启发,最近的研究将网络表示为“文档”。文档是将词的序列,因此也要将节点序列化
Feature Learning Framework
公式化为一个最大似然优化问题。
两个基本假设:
1.条件独立性假设
2.特征空间对称性假设
亮点: p q p q pq random walk采样
source node u的邻域
N
S
(
u
)
N_S(u)
NS(u)的抽样,不一定限制非要是一阶邻域。
经典的搜索策略
BFS:广度搜索,
N
S
(
u
)
N_S(u)
NS(u)被限制在u的直接邻域
DFS:深度搜索,邻域的序列组成是抽样从u节点随着距离增长
warker刚刚从节点t处走到节点v处,现在在节点v处,下一步候选节点x1,x2,x3,t,那么节点t到节点x1的距离为1,节点t到它本身的距离为0(注意random warlker有可能往回走的),到x2,x3的距离都为2
参数
p
p
p和
q
q
q控制walker步行探索和离开起始点邻域的速度。
return参数
p
p
p,参数p控制walker立即返回revisiting节点的概率。设置一个很大的p(>max(q, 1)),可以确保抽样到已经访问过的节点
In-out参数
q
q
q,参数q控制采样‘inward’和‘outward’节点的偏好。如果q>1,偏向于选择离t节点近的x1,如果q<1,偏向于选择离t节点较远的节点x2、x3.
random walk的好处,降低时间和空间复杂度。储存直接邻居的空间复杂度是 O ( ∣ E ∣ ) O(|E|) O(∣E∣), random warlk是 O ( a 2 ∣ V ∣ ) O(a^2|V|) O(a2∣V∣),其中,a是图中节点的平均度。
学习edge特征
link prediction中,我们预测网络中的两个节点是否有连接。random walks是基于潜在网络中两个节点的连接结构的。因此使用bootstraping的方法推广到节点对。
给定节点u和v,在两个节点的特征
f
(
u
)
f(u)
f(u)和
f
(
v
)
f(v)
f(v)上定义二进制操作,生成一个表达
g
(
u
,
v
)
\mathcal{g}(u,v)
g(u,v)。我们希望这个操作广泛的定义在有边,甚至是没有边的所有节点对上。这样这个representations才能对预测的节点之间是否存在边有用。一些二进制操作的选择如表
实验
Les Misérables network
网络的节点77个,边254个,设node embedding向量的长度d=16,使用node2vec学习网络中每个节点的特征表达。基于特征做k-means聚类。
下图中(top)设置p=1,q=0.5,发现了子图中彼此互动频繁的节点cluster/communities。由于字符之间的边是基于同性的,所以我们认为这种特征是与趋同性密切相关的。
为了挖掘拥有相同结构特征的节点,设置p=1,q=2, node2vec得到节点的特征,并聚类。得到簇的节点的补充分配,bottom中颜色对应于结构等价。蓝色的节点被聚到一起,它们作为不同sub-plots之间的桥梁。黄色节点代表在边缘拥有有限的边的特征。
evaluation
使用标准的有监督学习任务:节点的多标签分类和边的连接预测,来评估node2vec学习到的特征。使用一些特征学习算法对照:
Multi-label classification
在多标签分类中,有限集 L \mathcal{L} L中每个节点有一个或多个标签。训练阶段,能观察到一定比率的节点和标签。任务是预测剩下的节点的标签。使用的数据集分别是BlogCatalog、Protein-Protein Interactions、Wikipedia,所有这些网络都表现出同质性和结构等同性的公平组合。
将训练的特征输入l2正则的逻辑回归,F1-score作为评价指标。
从不同train-test比方面比较模型表现
调参
介绍一个全局最优化的方法:随机游走算法(Random Walk)
Link prediction
将给的数据集中的部分边移除。随机移除50%