【伪代码】用数学的方式理解FP-Growth算法

豪华版冰块

已于 2023-04-06 17:05:35 修改

阅读量277

点赞数

文章标签：算法数据挖掘

于 2023-04-06 15:28:45 首次发布

本文链接：https://blog.csdn.net/m0_72003354/article/details/129990562

版权

FP-Growth是一种用于挖掘频繁项集的算法，它通过构建FP-Tree数据结构，有效地查找支持度大于阈值的项集。该算法包括预处理、FP-Tree构造和频繁项集挖掘三个主要步骤。在预处理阶段，计算项集的支持度；接着构造FP-Tree，并从中挖掘频繁项集，通过递归方式找到所有满足条件的频繁项集。

摘要由CSDN通过智能技术生成

假设有一组事务集合T={t1,t2,…,tn}，其中每个事务集合ti包含了一些项集，即ti={X1,X2,…,Xm}。对于项集Xj，它的支持度为在所有事务集合中包含Xj的次数，记为supp(Xj)。目标是找出所有支持度不小于阈值min_sup（在此算法中为预先设定的值）的项集。

FP-Growth算法的主要思路是构建一棵FP-Tree（频繁项集树）来表示事务集合。FP-Tree是一种基于前缀树（Prefix Tree）的数据结构，它可以快速地发现频繁项集。接下来我们给出FP-Growth算法的两个基本步骤：

1. 首先我们需要对项集进行预处理，得到每个项集的支持度。对于任意项集Xj，如果它的支持度supp(Xj)小于min_sup，那么我们可以不考虑它。如果supp(Xj)≥min_sup，我们可以把Xj作为一个单独的频繁项集。

2. 构造FP-Tree。FP-Tree的构造分为两步。第一步是遍历所有事务集合，把其中的每个项集插入到FP-Tree中。具体来说，对于每个项集Xj，我们在根节点处开始遍历FP-Tree，寻找与Xj有相同前缀的路径，如果找到了这条路径，我们就在最后一个节点处插入Xj中剩余的项。如果没有找到这条路径，我们就新建一个分支节点，插入Xj中剩余的项。第二步是对FP-Tree进行频繁项集挖掘。我们从FP-Tree中的较小频繁项开始，逐层向上遍历树上的路径，得到包含这个频繁项的所有条件模式基（Conditional Pattern Base），并构建一个新的FP-Tree。这个新的FP-Tree上的所有路径都与原来的频繁项相同，只是其中可能包含了一些新的项。然后递归地对新的FP-Tree进行频繁项集挖掘，直到所有的频繁项都被找到为止。

FP-Growth算法可以用以下的数学公式表示：

Input:
T = {t1, t2, …, tn} : a set of transactions
min_sup : minimum support threshold

Output:
F : a set of frequent itemsets

Function:
FP-Growth(T, min_sup)
{itemset_freq} = count_item_freq(T) # count frequency of each itemset in T
F = {} # empty set of frequent itemsets
for itemset, freq in itemset_freq:
if freq >= min_sup:
F.add(itemset)
F.sort() # sort frequent itemsets in descending order of frequency
header_table = construct_header_table(T, min_sup, F)
root = construct_fp_tree(T, header_table)
find_frequent_itemsets(root, header_table, min_sup, F)
return F

其中，count_item_freq(T)函数用于计算每个项集的支持度；construct_header_table(T, min_sup, F)函数用于构建头指针表；construct_fp_tree(T, header_table)函数用于构建FP-Tree；find_frequent_itemsets(root, header_table, min_sup, F)函数用于对FP-Tree进行频繁项集挖掘。