摘要
定义图中重要程度较高的子结构为主干图,降低学习规模
0.前言
核方法通过将数据映射到高维特征空间,然后在新的特征空间中分析和处理数据。
由于该方法只需要构建一个核函数来度量样本之间的相似度,与其数据的表现形式
并无联系,并且它能够很好地保证其泛化性能,因此,它能够有效地对图这样的结构化数据进行机器学习。
1.研究背景
1.1 图核函数
基于路径相关的图核方法
1999 年,David Haussler[6]提出卷积核
2003 年,Gertner,Flach,Wrobel[3]等人提出计算同构是NP难问题,并提出随机游走核求近似解
2005 年,Frhlich. H[7]等人提出了最佳完美匹配核函数
Karsten M.Borgwardt、Hans-Peter Kriegel[8]提出了另外一种基于弗洛伊德算法的最短路径核函数
2006 年,S. V. N.Vishwanathan[4]等人在随机路径核函数的基础上提出了一种快速的随机路径图核函数
加权分解核[9]
基于子树的图核方法[10]
——————
2010 年,Adam Wo zˊnica、Alexandros Kalousis[11]等人提出了一种自适应的图核函数,并给出标准图核的条件
- 可计算图之间相似性
- 多项式时间复杂度
- 核矩阵半正定
- 可应用于多种图结构上
1.2 核矩阵学习
- 构造核函数
- 学习核相似矩阵
2 方法
2.1定义
标签图
对节点和边分别注标签
主干图
度足够大的节点叫主干顶点,主干顶点组成主干图
n阶主干图
通过无向图递归构造
同时记录subG为主干图对应的子图
2.2 主干图核
2.2.1
前半定义主干图相似性,后半定义对应子图相似性
2.2.2 复杂度和半正定分析
通过DPS生成随机路径,构造[4]的随机路径核K(),可知复杂度为o(n3)
半正定也已有[4]证明
2.3 自适应离散粒子群
聚类
3.实验
3.1 数据集
Mutagenesis 是诱变分子数据集
PTC 是致癌分子数据集
HIA 是人体小肠吸收分子数据集