网络表示学习——《网络表示学习综述》笔记
论文:《网络表示学习综述》——涂存超等,2017
1..网络表示学习的价值:在学术价值方面,信息网络是信息的重要表达形式;在应用价值方面,信息网络中拥有着非常广泛的应用场景,如节点分类、链接预测、社区发现、推荐系统等任务。
2.针对网络的分析研究的一个关键问题:研究如何合理地表示网络中的特征信息
——>传统的网络表示中,一般使用高维的稀疏向量。
——>存在的问题:高维的向量将会花费更多的运行时间和计算空间。
——>解决方法:将网络中的节点表示为低维稠密的向量表示的方法。直觉上来看,在网络中拓扑结构相似的节点也应该具有相近的向量表示。这里向量表示的相似性一般用向量间的余弦距离或欧式距离来表示。
注:余弦相似度——侧重于方向的差异,欧式距离——侧重于数值差异。
——>优点:低维的向量表示使得快速高效的算法设计成为可能,而不必再去考虑原本的网络结构。
3.网络表示是衔接网络原始数据和网络应用任务的桥梁。
网络表示学习算法负责从网络数据中学习得到网络中每个节点的向量表示,之后这些节点表示就可以作为节点的特征应用于后续的网络应用任务,如节点分类、链接预测和可视化等。
4.网络表示学习的类别:
注:①基于矩阵特征向量计算的方法中存在的问题:对最优化问题求解最优解的过程,如特征向量的计算,对于大规模的网络数据来说是非常耗时的
——>解决方法:将深度学习引入—>基于简单神经网络的算法
②存在问题:使用向量表示代替原始网络的策略在带来便利的同时,也会丢失很多原始网络中的信息,比如大多数网络表示学习方法使用向量表示间的内积或者余弦距离刻画节点相似度,但内积或者余弦距离都是无向的,会丢失网络中的非对称行。另一方面,一些依赖于网络结构定义的性质,如社区等信息,也会在网络表示学习的过程中丢失。
——>解决方法:保存特殊性质的网络表示:1> HOPE算法:构建不同的非对称的关系矩阵,为每个节点刻画了两种不同的表示,并着眼于保存原始网络中的非对称性信息;2> CNRL算法:考虑了在节点表示中嵌入网络隐藏的社区信息。
③存在问题:传统网络表示学习主要依赖于网络拓扑结构信息,而忽略了这些异质外部信息
——>解决方法:结合外部信息的网络表示学习
④存在问题:真是世界中的网络节点在于其他节点进行交互时,往往会展现出不同方面的特定。已有的网络表示学习方法会给每个网络节点学习一个固定的表示向量不能展现出同一个节点对于不同邻居节点角色的变化。此外,这些方法部能对节点之间的关系进行有效的建模和解释
——>解决方法:CANE:利用网络节点的文本信息来对节点之间的关系进行解释,来为网络节点根据不同的邻居学习上下文相关的网络表示
⑤存在问题:基于无监督的网络表示学习,在针对节点分类等机器学习任务时,缺少区分性。
——>解决方法:半监督的网络表示学习:把已经标注的节点的节点类别或者标签利用起来,加入到网络表示学习的过程中,从而针对性的提升节点网络表示在后续分类任务中的结果。
⑥存在问题:除了节点本身附加的文本、标签等信息外,节点于节点之间也存在着丰富的交互信息。已有的网络表示学习模型更侧重于节点本身的信息,而把边简单地看作0,1值或者连续的实值,而忽略边上丰富的语义信息。同时,已有的网络表示学习一般采用节点分类、链接预测等网络分析任务来衡量网络表示学习的质量,而忽略了对节点之间具体关系的建模和预测能力。
——>解决方法:TransNet模型:利用平移机制来解决社会关系抽取问题。
5.评测任务和应用场景:①节点分类
②链接预测
③社区发现
注:①链接预测与社区发现的区别:社区发现任务是无监督的,即没有任何已标定的数据。
6.面临的挑战:①知识驱动的网络表示学习;
②大规模网络表示学习;
③结合具体应用的网络表示学习。