机器学习（十一）：FP增长（FP-growth）

原创

已于 2023-09-12 21:00:06 修改 · 1.4w 阅读

98 ·

CC 4.0 BY-SA版权

文章标签：

#聚类算法 #FP-growth

于 2018-05-14 22:05:35 首次发布

FP-growth算法是一种高效发现频繁项集的方法，仅需对数据库进行两次扫描。它包括构建FP树和从中挖掘频繁项集两个主要步骤。本文详细介绍了FP树的构建过程，如何从FP树中抽取频繁项集，以及提供了Python代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

更多内容关注公众号：数学的旋律
在这里插入图片描述

tb店铺搜：FUN STORE玩物社，专业买手挑选送礼好物

引言

FP增长（FP-growth）算法是一种高效发现频繁项集的方法，只需要对数据库进行两次扫描。它基于Apriori构建，但在完成相同任务时采用了一些不同的技术。该算法虽然能更为高效地发现频繁项集，但不能用于发现关联规则。
本文用到的部分术语已在简介中介绍（具体看‘基本概念-关联分析’），这里不再重述。

一、FP-growth算法

FP-growth算法发现频繁项集的基本过程如下：
① 构建FP树
② 从FP树中挖掘频繁项集

二、构建FP树

FP树是一种输入数据的压缩表示，它通过逐个读入事务，并把事务映射到FP树中的一条路径来构造。由于不同的事务可能会有若干个相同的项，因此它们的路径可能部分重叠，路径相互重叠越多，使用FP树结构获得的压缩效果越好。
为构建FP树，需要对原始数据集扫描两遍。
① 第一遍对所有元素项的出现次数进行计数，丢弃支持度小于阈值的非频繁项，得到频繁项集，并对频繁项集按照支持度的递减排序。
② 第二遍扫描时，构建FP树。从空集开始，依次读入排序好的频繁项集中各条事务。如果树中已存在现有元素，则增加现有元素的值；如果现有元素不存在，则向树添加一个分枝。
例1
数据集如下（需满足的最小支持度计数为3）：

事务ID	事务中的元素项
001	r,z,h,j,p
002	z,y,x,w,v,u,t,s
003	z
004	r,x,n,o,s
005	y,r,x,z,q,t,p
006	y,z,x,e,q,s,t,m
① 对数据集进行第一次扫描，丢弃支持度小于3的非频繁项，得到频繁项集，并对频繁项集按照支持度计数的递减排序，得
（计算支持度计数得要丢弃的非频繁项是：h,j,p,w,v,u,n,o,q,e,m）
事务ID	过滤后的元素
–	–
001	r,z
002	z,y,x,t,s
003	z
004	r,x,s
005	y,r,x,z,t
006	y,z,x,s,t
② 对数据集进行第二次扫描，构建FP树。

三、从FP树中挖掘频繁项集

从FP树中抽取频繁项集的三个基本步骤如下：
① 从FP树中获取前缀路径（prefix path）
一条前缀路径是介于所查找元素项与树根节点之间的所有内容。为了获得这些前缀路径，可以对树进行穷举式搜索，直到获得想要的频繁项为止，或者使用一个更有效的方法来加速搜索过程。可以利用先前创建的头指针表来得到一种更有效的方法，头指针表包含相同类型元素链表的起始指针，一旦到达了每一个元素项，就可以上溯这棵树直到根节点为止。
② 将前缀路径转化为条件FP树（conditional FP-tree）
对于每一个频繁项，都要创建一棵条件FP树，条件FP树的结构与FP树类似。先对单个元素构建条件FP树（即删除前缀路径中支持度计数小于阈值的树），再对剩下的元素与单个元素两两组合构建新的条件FP树，递归直至条件FP树为空。
例2
挖掘例1中数据的频繁项集
① 获取前缀路径
先创建头指针表及FP树，得到如下所示数据结构
这里写图片描述
以 t 为例，上图从左往右寻找第一个 t ，通过上溯到根节点可以获取第一个前缀路径为{s,y,x,z}，接着利用头指针表寻找下一个 t ，再上溯到根节点可以获取第二个前缀路径为{r,y,x,z}。
每个频繁项的前缀路径如下：

频繁项	前缀路径（数字为支持度计数）
z	{}5
r	{z}1,{y,x,z}1,{s,x}1
x	{z}3,{}1
y	{x,z}3
s	{y,x,z}2,{x}1
t	{s,y,x,z}2,{r,y,x,z}1
② 创建条件FP树
以 t 为例：
用{t}为结尾项，先计数各支持度计数，再去掉计数值小于3的项，得到条件FP树如下图最右所示

用循环分别用{x,t}{y,t}{z,t}为结尾项构建条件FP树，直至构建的条件FP树为空。

四、代码实现（python）

以下代码来自Peter Harrington《Machine Learing in Action》
代码如下（保存为fpGrowth.py)：

# -- coding: utf-8 --
class treeNode:
    # FP树中节点的类定义，用于构建FP树
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue       # 节点名字
        self.count = numOccur       # 计数值
        self.nodeLink = None        # 链接相似的元素项
        self.parent = parentNode    # 指向当前节点的父节点
        self.children = {
   }          # 存放节点的子节点

    def inc(self, numOccur):
        # 对count变量增加给定值
        self.count += numOccur

    def disp(self, ind=

最低0.47元/天解锁文章