数据挖掘 FP-tree 算法

学习笔记之数据挖掘 FP-tree 算法

FP-tree 算法和 Apriori 算法都被用作关联规则挖掘。
FP-tree 算法只进行 2 次数据库扫描。相比于 Apriori 算法,她没有候选集,直接压缩数据库成一个频繁模式树,通过这棵树生成关联规则。两个主要步骤:
1. 利用事务数据库中的数据构造 FP-tree;
2. 从 FP-tree 中挖掘频繁模式。

步骤一: 构建 FP-tree 树

  1. 扫描数据库一次,得到频繁 1-项集;
  2. 把项按支持度递减排序;

    真实项目中,支持度一般设置的都不会太低。如定义 minsup = 20%, 即最小支持度为 2;

  3. 再一次扫描数据库,建立 FP-tree;

FP-tree 结构的好处

这里写图片描述

步骤二:频繁模式的挖掘

  1. 根据事务数据库 D 和最小支持度 min_sup,调用建树过程,建立 FP-tree;
  2. if FP-tree 为简单路径:
    将路径上支持度计数大于 min_sup 的节点任意组合,得到所需的频繁模式
    else
    初始化最大频繁模式集合为空
  3. 按照支持频率升序,以每个 1-频繁项为后缀,调用为挖掘算法挖掘最大频繁模式集;
  4. 根据最大频繁模式集合中最大频繁模式,输出全部的频繁模式。

例子

数据

这里写图片描述

构造 FP-tree

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

FP-growth

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

FP-tree 算法的优缺点

优点

  1. FP-tree 算法只需对事务数据库进行二次扫描;
  2. 避免产生大量候选集;

缺点

  1. 要递归生成条件数据库和条件 FP-tree,所以内存开销大;
  2. 只能用于挖掘单维的布尔关联规则;
  • 18
    点赞
  • 125
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值