机器学习(十一):FP增长(FP-growth)

更多内容关注公众号:数学的旋律
在这里插入图片描述


tb店铺搜:FUN STORE玩物社,专业买手挑选送礼好物

引言

    FP增长(FP-growth)算法是一种高效发现频繁项集的方法,只需要对数据库进行两次扫描。它基于Apriori构建,但在完成相同任务时采用了一些不同的技术。该算法虽然能更为高效地发现频繁项集,但不能用于发现关联规则。
    本文用到的部分术语已在简介中介绍(具体看‘基本概念-关联分析’),这里不再重述。

一、FP-growth算法

    FP-growth算法发现频繁项集的基本过程如下:
① 构建FP树
② 从FP树中挖掘频繁项集

二、构建FP树

    FP树是一种输入数据的压缩表示,它通过逐个读入事务,并把事务映射到FP树中的一条路径来构造。由于不同的事务可能会有若干个相同的项,因此它们的路径可能部分重叠,路径相互重叠越多,使用FP树结构获得的压缩效果越好。
    为构建FP树,需要对原始数据集扫描两遍。
① 第一遍对所有元素项的出现次数进行计数,丢弃支持度小于阈值的非频繁项,得到频繁项集,并对频繁项集按照支持度的递减排序。
② 第二遍扫描时,构建FP树。从空集开始,依次读入排序好的频繁项集中各条事务。如果树中已存在现有元素,则增加现有元素的值;如果现有元素不存在,则向树添加一个分枝。
例1
数据集如下(需满足的最小支持度计数为3):

事务ID 事务中的元素项
001 r,z,h,j,p
002 z,y,x,w,v,u,t,s
003 z
004 r,x,n,o,s
005 y,r,x,z,q,t,p
006 y,z,x,e,q,s,t,m
① 对数据集进行第一次扫描,丢弃支持度小于3的非频繁项,得到频繁项集,并对频繁项集按照支持度计数的递减排序,得
(计算支持度计数得要丢弃的非频繁项是:h,j,p,w,v,u,n,o,q,e,m)
事务ID 过滤后的元素
001 r,z
002 z,y,x,t,s
003 z
004 r,x,s
005 y,r,x,z,t
006 y,z,x,s,t
② 对数据集进行第二次扫描,构建FP树。
这里写图片描述


三、从FP树中挖掘频繁项集

    从FP树中抽取频繁项集的三个基本步骤如下:
① 从FP树中获取前缀路径(prefix path)
    一条前缀路径是介于所查找元素项与树根节点之间的所有内容。为了获得这些前缀路径,可以对树进行穷举式搜索,直到获得想要的频繁项为止,或者使用一个更有效的方法来加速搜索过程。可以利用先前创建的头指针表来得到一种更有效的方法,头指针表包含相同类型元素链表的起始指针,一旦到达了每一个元素项,就可以上溯这棵树直到根节点为止。
② 将前缀路径转化为条件FP树(conditional FP-tree)
    对于每一个频繁项,都要创建一棵条件FP树,条件FP树的结构与FP树类似。先对单个元素构建条件FP树(即删除前缀路径中支持度计数小于阈值的树),再对剩下的元素与单个元素两两组合构建新的条件FP树,递归直至条件FP树为空。
例2
挖掘例1中数据的频繁项集
① 获取前缀路径
先创建头指针表及FP树,得到如下所示数据结构
这里写图片描述
以 t 为例,上图从左往右寻找第一个 t ,通过上溯到根节点可以获取第一个前缀路径为{s,y,x,z},接着利用头指针表寻找下一个 t ,再上溯到根节点可以获取第二个前缀路径为{r,y,x,z}。
每个频繁项的前缀路径如下:

频繁项 前缀路径(数字为支持度计数)
z {}5
r {z}1,{y,x,z}1,{s,x}1
x {z}3,{}1
y {x,z}3
s {y,x,z}2,{x}1
t {s,y,x,z}2,{r,y,x,z}1
② 创建条件FP树
以 t 为例:
用{t}为结尾项,先计数各支持度计数,再去掉计数值小于3的项,得到条件FP树如下图最右所示
这里写图片描述
用循环分别用{x,t}{y,t}{z,t}为结尾项构建条件FP树,直至构建的条件FP树为空。


四、代码实现(python)

以下代码来自Peter Harrington《Machine Learing in Action》
代码如下(保存为fpGrowth.py):

# -- coding: utf-8 --
class treeNode:
    # FP树中节点的类定义,用于构建FP树
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue       # 节点名字
        self.count = numOccur       # 计数值
        self.nodeLink = None        # 链接相似的元素项
        self.parent = parentNode    # 指向当前节点的父节点
        self.children = {
   }          # 存放节点的子节点

    def inc(self, numOccur):
        # 对count变量增加给定值
        self.count += numOccur

    def disp(self, ind=1
  • 16
    点赞
  • 96
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
FP-Growth是一种用于频繁项集挖掘的数据挖掘算法,它可以帮助我们发现数据中的频繁模式和关联关系。而在Matlab中,我们可以利用一些工具和函数来实现FP-Growth算法和关联关系分析。 在Matlab中,我们可以使用Apriori算法来实现FP-Growth算法。首先,我们需要将数据整理成一个事务数据库格式,可以使用Matlab中的事务格式函数来完成。然后,我们可以使用频繁项集函数来计算频繁项集,再根据频繁项集来生成关联规则。 在Matlab中,使用Apriori算法和频繁项集函数,可以从给定的事务数据库中计算出频繁项集和关联规则。我们可以根据自己的需求设置最小支持度和最小置信度,以控制频繁项集和关联规则的阈值。计算完毕后,可以利用Matlab的可视化工具来展示关联规则和频繁项集的结果。 除了使用内置函数,Matlab还提供了一些其他工具箱和脚本,如MATLAB数据统计工具箱和MATLAB机器学习工具箱,可以用于关联规则的分析和建模。这些工具箱提供了更多高级的数据分析和建模技术,可以更好地支持关联分析和处理更复杂的数据。 综上所述,在Matlab中,可以使用Apriori算法和频繁项集函数来实现FP-Growth算法,并通过设置参数和使用可视化工具展示关联规则和频繁项集的结果。Matlab还提供了其他工具箱和脚本,可以更好地支持关联分析和处理更复杂的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值