本文是对《Arbitrary-Order Proximity Preserved Network Embedding》一文的浅显翻译与理解,原文章已上传至个人资源,如有侵权即刻删除。
朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~
Chinese-Reading-Notes-of-Graph-Learning
更多相关文章,请移步:文献阅读总结:网络表示学习/图学习
前言
该文通过利用奇异值分解和特征值分解,保持了网络嵌入任意阶相似度,并且能以低边缘损失在任意阶相似度中转换,给出确定阶数,可以得到全局最优解。
通过网络的邻接矩阵 A,生成相似度矩阵 S,对 S 进行奇异值分解,得到左右奇异矩阵,就可以与奇异值矩阵组合形成两个嵌入向量。
直接对 S 进行奇异值分解比较麻烦,而且算法需要在不同阶之间变动,因此用特征值分解来代替奇异值分解。通过计算 A 的特征分解结果,可以直接推出 S 的结果,取前 top-d,就可以认为还原出了数据本身。
问题在于,阶数不同,A 对应的相似度矩阵 S 的维度也不尽相同,无法保证 A 的 top-d 结果就与 S 的 top-d 结果正好相关。因此通过 d 计算出 A 的 l 值,面对任何阶数,都可以通过计算并取 A 的 top-l 结果得到 S。
Title
《Arbitrary-Order Proximity Preserved Network Embedding》(保持任意阶相似度的网络嵌入)
——KDD2018: 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining
Author: Ziwei Zhang
Main body
文章提出了两个问题:
(1)所有现行算法仅能够保持固定阶相似度,尽管不同网络和目标应用经常需求不同阶的相似度;
(2)给出一个定阶的相似度,现行算法难以同时保证准确度和效率。
算法给出了三个保障:
(1)本算法在不同阶间转换嵌入向量的边际成本较低;
(2)给出一个确定的阶,本算法可以得到全局最优解;
(3)本算法的总体时间复杂度对网络大小呈线性。
算法过程如下:
输入邻接矩阵、维度和不同的高阶相似度函数,可以得到输出为嵌入向量 U*_i 和 V*_i,其中 r 为阶数。全过程简述为:计算 A 的 top-l 特征分解结果,并对特征值根据不同阶数重加权,加权结果以绝对值大小降序排列取 top-d,根据式(4)计算 top-d 的 SVD 结果并根据式(5)返回嵌入向量。
向量 U*_i 和 V*_i 来自于 S 的 SVD 分解,即:
w为权重,q为阶数,对每个阶数q,其计算都是从 1^st 到 q^th 的加权组合,得到的 S 是矩阵形式。
嵌入的表示形式为:
U,V 分别为左右奇异矩阵,其每一列代表一个左右奇异向量,∑ 为奇异值矩阵。
[U,Σ,V]定义为 S 的top-d 的 SVD 结果,可以认为取 d 个最大奇异值,就能还原数据本身。
目标函数为:
由于直接求解 S 的 SVD 麻烦,且算法需要在不同阶数间变动,因此用特征值分解代替奇异值分解。即 S = XΛX^T,X 为标准正交阵,有 XX^T = I,Λ 为特征值对角矩阵。
定理4.1(两种分解之间的转换)
对 S 的特征值分解,由于不同相似度的特征值高度相关,则用式(1)中定义的任意阶相似度形式来解决特征分解问题。
定理4.2(用 A 代替算 S)
证明如下:
则在不对 S 进行特征分解的情况下,可以通过用 F(λ)代替 λ,可以从 A 的特征分解结果得到 S 的。
问题在于,特征分解按照结束的不同重加权后,特征值的阶数或维度就发生改变,即 S 的 top-d 不一定与 A 的 top-d 保持一致。因此需要通过 d 计算出 A 的 l 值,有 l = L(A,d),此时 A 的 top-l 就可以对应 S 的 top-d。
根据定理4.2,有:
其中 pi 即在 F(·)高阶转换前 λ’_i 的阶数,只需要 A 的 top-pi 特征分解就能得到 S 的λ’(1…d)。
定理4.3(A 的 top-l 对应 S 的 top-d)
证明如下:
推论4.4(计算 S 就要计算 A)
证明如下:
注意有 x+x2+…+xn = (x^(n+1)-x)/(x-1),此处权重是指数下降的,所以高阶次方可以视为无穷小忽略,分子分母同时添负号,就得到了以上结果。
以上即为模型公式推导全过程,章节4.4描述的是几个常用的高阶相似度,其中涉及到了定理。
定理4.5(第一维嵌入正比于特征向量中心)
证明如下:
即无论使用什么高阶相似度,嵌入向量的第一维都包含特征向量中心性的所有信息。