在importpython第173期的上特别报道。非常感谢您的支持!
著名的频繁序列模式挖掘算法的最短而有效的实现explore.ieee.org/abstract/document/1319986" rel="nofollow">等待(在closed.py中),以及频繁的生成器顺序模式挖掘算法feat(在generator.py中),作为一个统一的整体算法框架。bide通常比prefixspan在大型数据集上要快得多,因为只返回共享所有模式的等效信息的封闭模式的一小部分。
feat通常比prefixspan快,但在大型数据集上比bide慢。
对于更简单的代码,一些通用函数已被移到新库中,成为新库的一部分。
参考
研究论文PrefixSpan: Mining Sequential Patterns by Prefix-Projected Growth.
Jian Pei, Jiawei Han, Behzad Mortazavi-Asl, Helen Pinto, Qiming Chen, Umeshwar Dayal, Meichun Hsu.
Proceedings of the 17th International Conference on Data Engineering, 2001.BIDE: Efficient Mining of Frequent Closed Sequences.
Jianyong Wang, Jiawei Han.
Proceedings of the 20th International Conference on Data Engineering, 2004.Efficient mining of frequent sequence generators.
Chuancong Gao, Jianyong Wang, Yukai He, Lizhu Zhou.
Proceedings of the 17th International Conference on World Wide Web, 2008.
替代实施
我创建这个项目时,使用了prefixspan的原始的最少15行实现,用于教育目的。然而,随着这个项目发展成为一个完整的功能库,它的代码大小也不可避免地增长。我已经修改并重新发布了最初的实现,将其作为github的一个gisthub gist参考。
您也可以尝试我的scalaprefixspan版本。
功