1、图挖掘
近年来,图挖掘作为,数据挖掘的重要组成部分引起了社会各界的极大关注。图挖掘(Graph Mining)是指利用图模型从海量数据中发现和提起有用知识和信息的过程。通过图挖掘所获取的知识和信息已广泛应用于各种领域,如商务管理、市场分析、生产控制、科学探索和工程设计。
2、图在不同领域的应用
应用 | 图形 | 顶点 | 边 |
生物信息学 (蛋白质结构分析、基因组织识别) | 蛋白质结构 | 氨基酸 | 接触残基 |
社交网络 (实体间的联系) | 社会关系网络结构 | 个体或组合 | 依赖关系 |
Web分析 (Web连接结构分析、Web内容挖掘、 Web日志搜索) | Web浏览模式 | Web页面 | 页面之间的超链接 |
网络计算 | 计算机网络 | 计算机和服务器 | 机器之间的互联 |
(1)图边的数量是顶点数量的指数倍。而具有规模大于109顶点和边数量的图数据愈来愈普遍,对查找和存储提出了很大的挑战;
(2)图同构问题一般认为不是P问题也不是NPC问题,虽然它明显是一个NP问题。判断来年改革大图是否同构非常困难。而同构的概念却大量用在相关图挖掘算法中;
(3)由于图的复杂性,使得图挖掘具有较高的复杂性,基于图的算法很难进行并行化;
(4)很多传统数据挖掘算法无法应用到图数据中需要重新设计合适的算法。由于图结构的复杂性,算法的设计要修高效性,并且对实验机器的配置要求较高。
4、图挖掘的基础研究
(1)图的匹配
(2)图数据中的关键字查询
(3)频繁子图挖掘:
Apriori-based 方法:包括AGM,AcGM,FSG和path-join算法等
FP-growth方法:包括gSpan、CloseGraph和FFSM等(它们主要通过逐渐扩展频繁边得到频繁子图,但对边的扩展过程略有不同)
其他的频繁子图挖掘算法:例如Wang等人提出了一种基于索引的频繁子图挖掘算法GraphMiner;Zhu等人提出了一种基于用户约束条件的频繁子图挖掘短发gPrune;Karste等人提出了适合于动态图挖掘DynamicGREW算法等。
(4)显著性子图挖掘
(5)密集子图挖掘
(4)图的聚类
(5)图的分类
(6)不确定图的挖掘
(7)社会网络应用的连接分析(link analysis)基于连接的对象分类(Link based object classification);
对象类型预测(object type predication);
连接类型预测(link type predication);
预测链路扩展(predicate link extension);
组探测(Group detection);
元数据挖掘(metadata mining)。
(7)隐私保护
(8)生物信息学
(9)化学图数据