Chapter 2 Background and Traditional Approaches
本章主要介绍了一些在深度学习之前用于图数据的机器学习方法。
2.1 Graph Statistics and Kernel Methods
传统的图数据的分类方法和常规的机器学习流程相同,也是先在数据中提取一些统计量或特征,然后用这些特征训练一个标准的分类器。因此,如何提取有效的统计量和特征是一个比较重要的问题。
2.1.1 Node-level statistics and features
首先给出如下的15世纪 Florentine不同家族间的婚姻关系图作为示例,婚姻关系是政治地位的一种反应,Medici家族当时享有较高的地位,结合这个示例我们可以尝试找出哪些统计量能在众多节点中把那些与众不同的节点区分出来。
Node Degree. 最直观的特征是节点的度,表示和一个节点相连的边有多少条:
节点的度包含的信息量比较大,在用传统方法处理节点级任务时很常用。例如在示意图中,Medici家族的度就是最大的。
Node centrality. centrality可以有多种不同的定义方式,一种比较常见的是eigenvector centrality,这种特征不仅考虑节点有多少个邻居,还考虑了每个邻居的重要性。具体的,用循环定义的方式给出eigenvector centrality的概念,即每个节点的centrality正比于它的邻居的平均centrality:
其中, λ \lambda λ是常数。
将所有节点写成向量形式,发现恰好得到邻接矩阵A的特征向量公式:
λ e = A e \lambda e=Ae λe=Ae
也就是说,满足定义的centrality应该对应A的一个特征向量。如果我们要求centrality为正值,那么根据Perron-Frobenius定理,满足条件的应该是