数学建模教程：GSpan-频繁子图挖掘算法

最新推荐文章于 2024-04-28 20:34:10 发布

建模君Assistance

最新推荐文章于 2024-04-28 20:34:10 发布

阅读量1.9k

点赞数 1

文章标签：算法数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dc_sinor/article/details/125207619

版权

0 前言

本人计算机研在读，专业带队数学建模，长期更新建模教学，有需要的同学欢迎讨论～
本篇文章，本系列学长讲解一部分数学建模常用算法，会陆续更新每个算法的详细实现和使用教程

1 算法介绍

频繁子图挖掘是数据挖掘中一个非常广泛的应用。频繁子图挖掘是指从大量的图中挖掘出满足给定支持度的频繁子图，同时算法需要保证这些频繁图不能重复。频繁模式挖掘主要就是应用两种策略（这里不讨论基于垂直增长的方法）——Apriori和Growth。最早的AGM和FSG就分别实现了这两重策略的基本思想。gSpan是一个非常高效的算法，它利用dfs-code序列对搜索树进行编码，并且制定一系列比较规则，从而保证最后只得到序列“最小”的频繁图集合。

2 算法实现过程

1、遍历所有的图，计算出所有的边和点的频度。

2、将频度与最小支持度数做比较，移除不频繁的边和点。

3、重新将剩下的点和边按照频度进行排序，将他们的排名号给边和点进行重新标号。

4、再次计算每条边的频度，计算完后，然后初始化每条边，并且进行此边的subMining()挖掘过程。

2.1 subMining的过程

1、根据graphCode重新恢复当前的子图

2、判断当前的编码是否为最小dfs编码，如果是加入到结果集中，继续在此基础上尝试添加可能的边，进行继续挖掘

3、如果不是最小编码，则此子图的挖掘过程结束。

2.2 DFS编码

gSpan算法对图的边进行编码，采用E(v0,v1,A,B,a)的方式，v0,v1代表的标识，你可以看做就是点的id,A,B可以作为点的标号，a为之间的边的标号，而一个图就是由这样的边构成的，G{e1, e2, e3,…}，而dfs编码的方式就是比里面的五元组的元素，我这里采用的规则是，从左往右依次比较大小，如果谁先小于另一方，谁就算小，图的比较算法同样如此，具体的规则可以见我后面代码中的注释。但是这个规则并不是完全一致的，至少在我看的相关论文中有不一样的描述存在。

2.3 生成subGraph

生成子图的进行下一次挖掘的过程也是gSpan算法中的一个难点，首先你要对原图进行编码，找到与挖掘子图一致的编码，找到之后，在图的最右路径上寻找可以扩展的边，在最右路径上扩展的情况分为2种，1种为在最右节点上进行扩展，1种为在最右路径的点上进行扩展。2种情况都需要做一定的判断。

2.4 算法的技巧

算法在实现时，用的技巧比较多，有些也很不好理解，比如在dfs编码或找子边的过程中，用到了图id对于Edge中的五元组id的映射，这个会一开始没想到，还有怎么去描述一个图通过一定的数据结构。

python实现

实现放在了github上
https://github.com/betterenvi/gSpan

最后

数学建模精选资料共享，研究生学长数模指导，建模比赛思路分享，关注我不迷路！

建模指导，比赛协助，有问必答，欢迎打扰

建模君Assistance

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
数学建模教程：GSpan-频繁子图挖掘算法

本人计算机研在读，专业带队数学建模，长期更新建模教学，有需要的同学欢迎讨论～本篇文章，本系列学长讲解一部分数学建模常用算法，会陆续更新每个算法的详细实现和使用教程频繁子图挖掘是数据挖掘中一个非常广泛的应用。频繁子图挖掘是指从大量的图中挖掘出满足给定支持度的频繁子图，同时算法需要保证这些频繁图不能重复。频繁模式挖掘主要就是应用两种策略（这里不讨论基于垂直增长的方法）——Apriori和Growth。最早的AGM和FSG就分别实现了这两重策略的基本思想。gSpan是一个非常高效的算法，它利用dfs-code序
复制链接

扫一扫

建模君Assistance

CSDN认证博客专家 CSDN认证企业博客

码龄2年

105: 原创

5960: 周排名

1万+: 总排名

130万+: 访问

: 等级

2515: 积分

6818: 粉丝

1608: 获赞

75: 评论

6385: 收藏

私信

关注

热门文章

分类专栏

最新评论

2024五一杯数学建模C题思路分享 - 煤矿深部开采冲击地压危险预测
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618577878。
2024五一杯数学建模C题思路分享 - 煤矿深部开采冲击地压危险预测
2401_84240189: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024五一杯数学建模C题思路分享 - 煤矿深部开采冲击地压危险预测
hu_ping_zhu_shou: 这篇文章很有价值，特别是对于煤矿深部开采冲击地压危险预测的问题。我非常赞同文章中提到的几个关键步骤，如数据收集、模型构建和验证等。这些步骤对于解决此类问题非常重要。感谢作者的分享，希望未来能看到更多这样的文章。 ,同时也希望博主能对我的文章指点一番呐
2024五一杯数学建模C题思路分享 - 煤矿深部开采冲击地压危险预测
豆小匠: 这篇文章真是干货满满啊！对于煤矿深部开采冲击地压危险预测的问题，文章中详细介绍了各种数学建模方法的应用和思路，非常值得学习。尤其是对于那些从事煤矿开采领域的研究人员来说，这些方法将会有很大的帮助。感谢作者的分享！ ,同时也希望博主能对我的文章指点一番呐

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。