目录
1引言
Machine Learning Task
回顾一下机器学习任务。主要是三个级别的任务,节点级别(Node-level)的预测,边级别(Edge-level)的预测,图级别(Graph-level)的预测。
Traditional ML Pipeline 传统机器学习管道线
1.为节点/边/图设计特征 2.为所有的训练数据获取特征 3…训练一个经典的机器学习模型(随机森林、SVM、神经网络
) 4.应用该模型到一个新的节点/边/图上
Feature Design 特征设计
在图上使用高效的特征是‘良好的测试性能’的关键。传统的机器学习pipeline使用手工设计的特征(hand-designed features)。在这一节中,我们会回顾节点级别(Node-level),边级别(Edge-level),图级别(Graph-level)的传统特征。为了简单起见,我们关注无向图。
Machine Learning in Graphs 图机器学习
Goal:为一组objects做预测
Design choices:
特征:d维向量
objects:节点,边,节点集,整个图
目标函数:尝试预测的标签
我们可能想到,将图表示成边和节点,然后学习一个函数(对于每个节点,都能给出真实的预测)。
2节点级别的任务和特征
Node-level features节点级别的特征
Goal:描述图中节点的结构和位置(Node degree、Node centrality、Clustering coefficient、Graphlets)
节点特征:节点的度Node degree
节点的度:节点邻居节点的个数
节点特征:节点中心性Node centrality
节点的度数只关注节点拥有的邻居个数,没有关注节点的重要程度。节点中心性将节点在图中的重要程度考虑在内。有几种不同的重要程度建模方法:
- Engienvector centrality
- Betweenness centrality
- Closeness centrality
- and many others
Eigenvector centrality
Betweenness centrality
Closeness centrality:
节点特征:Clustering coefficient
聚类稀疏衡量邻居的连接程度
节点特征:Graphlets图集
3总结
上文我们介绍了几种方法获取节点特征。可以分类如下
基于重要性的特征:捕获节点的重要性
- Node degree只需计算相邻节点的数量
- Different node centrality measures图中相邻节点的重要性不同的建模选择:特征向量中心性、中间中心性、接近中心性
基于结构的特征:捕获节点周围局部邻域的拓扑特性
- Node degree计算相邻节点的数量
- Clustering coefficient测量相邻节点的连接方式
- Graphlet count vector计算不同图形中出现的次数