基本信息
- 作者:涂存超
- 题目:面向社会计算的网络表示学习
- 关键词:社区发现
数学形式
f : G = ( V , E ) → R k f:G=(V,E) \to R^k f:G=(V,E)→Rk
应用场景
针对社交媒体用户,我们可以利用用户行为信息等对其进行用户画像,判断用户的性别、年龄、职业等属性信息,以及他们的兴趣爱好;基于用户画像结果,可以对用户进行个性化推荐,来推荐他们可能认识的好友或者感兴趣的新闻、产品等。
研究方法
-
基于符号的显式网络
用邻接矩阵来表示网络,有N个节点就构造 N × N N \times N N×N的矩阵
- 优点:可解释性强
- 缺点:异构信息和稀疏性导致存储计算效率低
-
基于表示学习的隐式网络
- 优点:通过用低维实值的向量来表示网络节点,计算效率更高
- 缺点:可解释性不强
已有模型
-
谱聚类
-
局部线性表示:假设一个网络中任何一个节点的表示,都可以通过它的邻居节点的表示进行线性组合得到,把中心节点表示与邻居节点表示的线性组合之间的距离作为优化目标,最终将该问题的求解转化为对某个网络相关矩阵的特征值计算问题。
-
Laplacian Eigenmaps:通过求解网络对应的拉普拉斯矩阵的特征值,获得节点的低维向量表示。
-
有向图嵌入:在拉普拉斯特征映射方法的基础上,利用PageRank决定不同节点的权重,从而赋予不同节点对应的损失函数不同的权重。
-
-
神经网络
-
Deepwalk:首先在网络上进行随机游走,来生成由节点构成的随机游走序列。随后,DeepWalk 通过将节点看作词,将节点序列看成句子,利用Skip-Gram来训练网络节点的表示。
Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations
-
LINE:定义社交网络中节点之间的一阶邻近度和二阶邻近度。对于直接相连的节点, LINE 利用两个节点表示之间的联合概率来刻画它们之间的一阶邻近度;不直接相连的节点,引入节点的表示与邻居节点的上下文向量表示之间的条件概率来刻画节点之间的二阶邻近度。
Tang J, Qu M, Wang M, et al. Line: Large-scale information network embedding
-
node2vec:DeepWalk 的扩展方法,引入两个超参数 p 和 q,来控制随机游走算法的广度和深度,使模型能够更好的对网络结构进行探索,使得网络节点表示既能够包含局部的网络结构信息,也能够包含更深层的全局的网络结构信息,从而提高节点质量。
Grover A, Leskovec J. Node2vec: Scalable feature learning for networks
-
SDNE:首次将典型深层神经网络引 入网络表示学习中,通过引入深层自动编码器来对节点的邻接向量进行编码压缩, 来得到节点低维实值的表示向量。
Wang D, Cui P, Zhu W. Structural deep network embedding
-
-
矩阵分解
-
GraRep:首先根据网络的邻接矩阵 A A A,来构建节点之间 t t t步的关联矩阵 M = A t M = A^t M=At,该矩阵中的每个元素 M i , j M_{i,j} Mi,j 表示由节点 v i v_i vi 经过 t t t 步的随机游走到达节点 v j v_j vj 的概率。通过对该关联矩阵 M M M 进行 SVD
分解,来得到包含节点 t t t 阶邻近度的向量表示。
Cao S, Lu W, Xu Q. Grarep: Learning graph representations with global structural information
-
TADW:在基于矩阵分解形式的 DeepWalk 模型基础上,TADW 通过引入文本矩阵,来对 M 矩阵进行 SVD 分解,得到包含节点文本信息的网络节点表示。
Yang C, Liu Z, Zhao D, et al. Network representation learning with rich text information
-