Python基础原理:FP-growth算法的构建

和Apriori算法相比,FP-growth算法只需要对数据库进行两次遍历,从而高效发现频繁项集。对于搜索引擎公司而言,他们需要通过查看互联网上的用词,来找出经常在一块出现的词。因此就需要能够高效的发现频繁项集的方法,FP-growth算法就可以完成此重任。


FP-growth算法是基于Apriori原理的,通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集。
FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说FP-growth算法是高效的。


FP算法发现频繁项集的过程是:
(1)构建FP树;
(2)从FP树中挖掘频繁项集
FP表示的是频繁模式,其通过链接来连接相似元素,被连起来的元素可看成是一个链表
将事务数据表中的各个事务对应的数据项,按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中,同时在每个结点处记录该结点出现的支持度。


假设存在的一个事务数据样例为,构建FP树的步骤如下:

结合Apriori算法中最小支持度的阈值,在此将最小支持度定义为3,结合上表中的数据,那些不满足最小支持度要求的将不会出现在最后的FP树中。


据此构建FP树,并采用一个头指针表来指向给定类型的第一个实例,快速访问FP树中的所有元素,构建的带头指针的FP树如图:



结合绘制的带头指针表的FP树,对表中数据进行过滤,排序如下:



在对数据项过滤排序了之后,就可以构建FP树了,从NULL开始,向其中不断添加过滤排序后的频繁项集。过程可表示为:



这样,FP树对应的数据结构就建好了,现在就可以构建FP树了,FP树的构建函数参见Python源代码。


在运行上例之前还需要一个真正的数据集,结合之前的数据自定义数据集。这样就构建了FP树,接下来就是使用它来进行频繁项集的挖掘。
- 2 * yp * xp * k1 * k2 - 2 * yp * xp * p1 * p2 + x *Python中有几个库可以实现FP-growth算法,其中比较常用的是mlxtend库和pyf R(2, 2) + f * yy0 * R(2, 1) - f * xx0 * R(2pgrowth库。下面是使用mlxtend库和pyfpgrowth库实现FP-growth算法的代码示例, 1); A(2 * i, 9) = xp * (k1 * pow(xp, 2) +: 使用mlxtend库: ```python from mlxtend.frequent_patterns import fpgrowth import pandas as pd # 构 k2 * pow(yp, 2)) + 2 * xp * p1 * yp + x * R(0, 0建数据集 dataset = [['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs',) - f * xx0 * R(0, 0) - f * yy0 * R(1, 0); A 'Yogurt'], ['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs',(2 * i, 10) = yp * (k1 * pow(xp, 2) + k2 * pow(yp 'Yogurt'], ['Milk', 'Apple', 'Kidney Beans', 'Eggs'], ['Milk', ', 2)) + 2 * yp * p2 * xp + x * R(0, 1) + f * xx0 * R(1, 0) - f * yy0 * R(0, 1); A(2 * i, Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'], ['Corn', 'Onion', 'Onion', '11) = -xp * yp * k1 - yp * pow(xp, 2) * k2 - yp * pow(ypKidney Beans', 'Ice cream', 'Eggs']] # 将数据集转换为DataFrame格式 df = pd.DataFrame(dataset, 2) * k2 - xp * p1 - yp * p2 + x * R(0, 2) + f) # 使用fpgrowth算法计算频繁项集 frequent_itemsets = fpgrowth(df, min_support=0 * xx0 * R(1, 1) + f * yy0 * R(1, 2); // 计算像.6, use_colnames=True) print(frequent_itemsets) ``` 使用pyfpgrowth库: ```python import pyf点坐标误差 L(2 * i) = x - f * (R(0, 0) * (Xpgrowth # 构建数据集 dataset = [['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', - Xs) + R(0, 1) * (Y - Ys) + R(0, 2) * ( 'Eggs', 'Yogurt'], ['Dill', 'Onion', 'Nutmeg', 'Kidney Beans',Z - Zs)) / (R(2, 0) * (X - Xs) + R(2, 1) 'Eggs', 'Yogurt'], ['Milk', 'Apple', 'Kidney Beans', 'Eggs'], ['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'], ['Corn', 'Onion', * (Y - Ys) + R(2, 2) * (Z - Zs)) - xx0; L( 'Onion', 'Kidney Beans', 'Ice cream', 'Eggs']] # 使用fp-growth算法计算频2 * i + 1) = y - f * (R(1, 0) * (X - Xs) + R繁项集 patterns = pyfpgrowth.find_frequent_patterns(dataset, 3) print(patterns) ``` 这两段代码(1, 1) * (Y - Ys) + R(1, 2) * (Z - Zs)) /分别使用了mlxtend和pyfpgrowth库中的函数,实现了FP-growth算法。这里的 (R(2, 0) * (X - Xs) + R(2, 1) * (Y - Ys) + R(2, 2) * (Z - Zs)) - yy0; } } // 计算未知数 X void calculateUnknowns(const MatrixXd& A, const VectorXd& L, imgPars& pars) { int m =数据集是一个简单的例子,实际使用中需要根据具体场景进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值