FP-growth算法也是无监督学习的一种。
是为了解决Apriori算法效率低下而诞生的,对于处理大数据量,相比Apriori算法具有快速的优势。
Apriori的缺点:
如果频繁项集的需要改变,则Apriori算法必须重新扫描整个数据集。
如果数据集很大,则这样效率很低。
FP-growth改进:
只需要对数据库进行两次遍历,就能发现频繁项集。
第一遍:统计出频率。
第二遍:值考虑那些频繁元素。
FP-growth算法步骤:
1、构建FP树。
2、挖掘频繁项集。