注意:此方法笔者已经试过,计算关联词,在跑大批量数据模型的时候,很消耗内存。打个比方,如果你的数据集足够大,内存全部能吃完。具体一点,每个子列表有100个词,共500个子列表,16个G不够用的,可以想象上万条以上是什么情况。
改进的方法:
1、upgraded FP-growsth, UFP 算法
http://www.bjutxuebao.com/bjgydx/article/2016/0254-0037-42-5-697.html#outline_anchor_19
2、频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比(Python实现)
https://www.cnblogs.com/infaraway/p/6774521.html
FP-growth算法理解
FP-growth(Frequent Pattern Tree, 频繁模式树),是韩家炜老师提出的挖掘频繁项集的方法,是将数据集存储在一个特定的称作FP树的结构之