关联分析算法(二)——FP-growth算法与python用法

FP-growth算法思想与Apriori类似,这里使用FP-tree (frequent pattern tree) 数据结构来存储频繁项集,在样本量多的情况下比Apriori算法更加快速高效。

案例

使用mlxtend工具包:

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder  # 传入模型的数据需要满足特定的格式,可以用这种方法来转换为bool值,也可以用函数转换为0、1
from mlxtend.frequent_patterns import fpgrowth
from mlxtend.frequent_patterns import association_rules

shopping_list = [['豆奶', '莴苣'],
                 ['莴苣', '尿布', '葡萄酒', '甜菜'],
                 ['豆奶', '尿布', '葡萄酒', '橙汁'],
                 ['莴苣', '豆奶', '尿布', '葡萄酒'],
                 ['莴苣', '豆奶', '尿布', '橙汁']]

shopping_df = pd.DataFrame(shopping_list)

df_arr = shopping_df.stack().groupby(level=0).apply(list).tolist()

te = TransactionEncoder()  # 定义模型
df_tf = te.fit_transform(df_arr)
df = pd.DataFrame(df_tf, columns=te.columns_)

# 求频繁项集:
frequent_itemsets = fpgrowth(df, min_support=0.05, use_colnames=True)  # use_colnames=True 表示使用元素名字,默认的False使用列名代表元素
frequent_itemsets.sort_values(by='support', ascending=False, inplace=True)  # 频繁项集可以按支持度排序
print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) >= 2])  # 选择长度 >=2 的频繁项集

# 求关联规则:
association_rule = association_rules(frequent_itemsets, metric='confidence',
                                     min_threshold=0.9)  # metric可以有很多的度量选项,返回的表列名都可以作为参数
association_rule.sort_values(by='leverage', ascending=False, inplace=True)  # 关联规则可以按leverage排序
print(association_rule)

FP-growth树构建与算法流程细节可以参考:

FP Growth method with an example:https://www.youtube.com/watch?v=VB8KWm8MXss

  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
FP-growth算法是一种用于频繁模式挖掘的算法,常用于数据挖掘、市场分析和推荐系统等领域。下面是使用Python实现FP-growth算法的代码: 首先,需要导入相应的库: ``` from collections import defaultdict from itertools import chain from typing import List, Tuple ``` 接着,定义一些常量: ``` # 定义FP树节点 class FPTreeNode: def __init__(self, item=None, count=1, parent=None): self.item = item self.count = count self.parent = parent self.children = defaultdict(FPTreeNode) # 定义FP树 class FPTree: def __init__(self, transactions, support, root_value, root_count): self.frequent_items = self.find_frequent_items(transactions, support) self.headers = self.build_header_table(self.frequent_items) self.root = self.build_fptree(transactions, root_value, root_count, self.frequent_items, self.headers) # 定义FP-growth算法 class FPGrowth: def __init__(self, min_support=0.5, min_confidence=0.5): self.min_support = min_support self.min_confidence = min_confidence # 定义函数:寻找频繁项集 def find_frequent_items(self, transactions, support): items = defaultdict(lambda: 0) for transaction in transactions: for item in transaction: items[item] += 1 # 去除不符合最小支持度的项 items = dict((item, support) for item, support in items.items() if support >= support * len(transactions)) # 返回频繁项集 return items ``` 接着,实现构建FP树的函数: ``` # 定义函数:构建FP树 def build_fptree(self, transactions, root_value, root_count, frequent_items, headers): root = FPTreeNode(item=root_value, count=root_count) for transaction in transactions: sorted_items = sorted([item for item in transaction if item in frequent_items], key=lambda item: frequent_items[item], reverse=True) if len(sorted_items) > 0: self.insert_tree(sorted_items, root, headers) return root # 定义函数:插入节点到FP树中 def insert_tree(self, items, node, headers): if items[0] in node.children: child = node.children[items[0]] else: child = FPTreeNode(item=items[0], parent=node) headers[items[0]].append(child) node.children[items[0]] = child if len(items) > 1: self.insert_tree(items[1:], child, headers) child.count += 1 ``` 最后,实现FP-growth算法的主函数: ``` # 定义函数:寻找频繁模式 def find_frequent_patterns(self, transactions): if not transactions: return None # 构建FP树 support = self.min_support root_value = 'null' root_count = len(transactions) fp_tree = FPTree(transactions, support, root_value, root_count) # 寻找频繁项集和条件模式基 frequent_patterns = defaultdict(int) conditional_patterns = defaultdict(list) self.mine_patterns(fp_tree, fp_tree.header_table, frequent_patterns, conditional_patterns) # 返回频繁模式 return frequent_patterns # 定义函数:挖掘频繁项集 def mine_patterns(self, tree, headers, frequent_patterns, conditional_patterns): sorted_items = [item[0] for item in sorted(headers.items(), key=lambda x: x[1][0].count)] for item in sorted_items: base_patterns = [path(item_node) for item_node in headers[item]] frequent_patterns.update({tuple(pattern): headers[item][0].count for pattern in base_patterns}) conditional_tree = self.build_conditional_tree(base_patterns, headers[item]) if conditional_tree: self.mine_patterns(conditional_tree, conditional_tree.header_table, frequent_patterns, conditional_patterns) ``` 这样,我们就完成了使用Python实现FP-growth算法的代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆萌的代Ma

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值