前言:本篇也是自己的远古笔记,例子来自其他人的网站,对过程进行了汇总,删除了他网站里我认为多余的一些内容,增强可读性。忘了具体是哪个网站了,如果谁发现原网站了,还请艾特我,我标注引用。多谢!
算法优点:fpgrowth会把数据都存到一个叫FP树的数据结构里,能靠这个减少IO次数,而且最后整个计算过程只用扫描两次数据库,比Apriori算法快了很多;本文主要就是详细解释FP树算法;
具体流程
①先根据最小支持度把频繁项集算出来,②然后用频繁项集构建FP树,③再获取每个频繁项集的前缀路径去构建新的条件FP树,通过条件FP树挖掘频繁k项集,④迭代这个(第三个)步骤,一直到从FP树里挖掘出所有的频繁k项集以后就能提取关联规则了;
基本概念
前缀路径:FP树里,从根节点到目标节点a(不包括a)的这条路径,就是a的前缀路径。
条件FP树:以想挖掘的那个节点为叶子结点的FP树的子树。