关联规则挖掘算法：Apriori 与 FP-Growth 深度对比与应用

本文链接：https://blog.csdn.net/sinat_28461591/article/details/147654228

关联规则挖掘算法：Apriori 与 FP-Growth 深度对比与应用

关键词：关联规则挖掘、Apriori、FP-Growth、频繁项集、组合推荐、购物篮分析、算法对比、工程实践

摘要
关联规则挖掘是结构化数据挖掘中最经典的模式发现方法，广泛应用于电商商品搭售、行为路径识别、推荐策略构建等领域。Apriori 和 FP-Growth 是两种主流频繁项集挖掘算法，前者基于候选项集生成与剪枝，后者基于压缩树结构以提升效率。本篇围绕工程应用视角，系统对比两种算法的底层机制、适用场景与性能差异，并通过真实交易数据构建完整挖掘流程，包括事务生成、频繁项集提取、规则输出、指标排序与工程封装结构，助力构建可复用的关联挖掘模块。

关联规则挖掘任务结构与核心概念复盘
Apriori 算法原理与频繁项集提取流程
FP-Growth 算法结构优化与高性能构建路径
两种算法的性能对比与适用范围分析
工程级输出结构：规则表生成、评估指标与过滤逻辑
多业务系统中的规则挖掘落地路径与策略集成
模块封装与自动任务调度结构建议

1. 关联规则挖掘任务结构与核心概念复盘

关联规则挖掘（Association Rule Mining）是模式识别任务中的经典分支，旨在发现项集之间的强依赖关系，揭示“若 A 发生，则 B 很可能同时发生”的结构性规律。其本质是从大量事务中提取频繁组合，生成具有高支持度与置信度的规则集合，应用于商品搭售、行为协同推荐、营销策略联动等工程场景。

1.1 事务数据结构定义

标准结构要求如下：

字段名	类型	说明
`transaction_id`	string	每一笔交易的唯一标识
`item_id`	string	交易中涉及的某个具体商品/行为标识
`user_id`	string	可选字段，便于用户聚合分析

构造事务列表结构（list of item sets）：

logs = df.groupby("transaction_id")["item_id"].apply(list).tolist()

该结构为挖掘算法的标准输入格式，表示一个事务集合。

1.2 关联规则的组成要素

关联规则本质上是形式如下的逻辑关系：

A → B

其核心指标包括：

指标	含义
支持度（support）	规则项 A ∪ B 出现的概率
置信度（confidence）	A 出现时 B 也出现的条件概率
提升度（lift）	A 与 B 之间的独立性比较，越大代表越强相关

示例规则：

{Milk, Bread} → {Butter}
support = 8%, confidence = 60%, lift = 1.5

代表在所有交易中，8% 同时购买了三者，若已买前者，买后者的概率为 60%，该行为比随机多出 50%。

1.3 挖掘任务建模流程概览

[用户交易数据]
→ 构造事务集合
→ 提取频繁项集（Apriori / FP-Growth）
→ 生成关联规则（满足支持度+置信度）
→ 规则过滤与排序
→ 写入规则表 / 注册至策略平台

关键工程处理包括：

事务标准化：字段统一、频率编码、历史合并
算法选择：数据量小优先 Apriori，大数据场景推荐 FP-Growth
多指标组合排序：支持 × 置信 × 提升 × 业务过滤规则
结果落地：结构化规则表，供推荐/运营系统调用

1.4 工程应用场景典型路径

场景分类	关联对象	应用形式
商品搭售	item → item	“经常一起购买”、商品页搭售模块
用户行为联动	event_type → event_type	用户行为转化路径识别
内容协同推荐	content_id → content_id	内容流中相似内容联动策略
营销联动策略	优惠券A → 优惠券B	套餐联动 / 满赠策略挖掘

1.5 与其他建模任务的差异

比较项	分类模型	关联规则挖掘
是否需要标签	是	否
是否有监督	是	否
输出内容	类别/概率	规则集
输入结构要求	表格化	item集合结构
训练成本	中等	极低
模型解释性	中	极强（结构化）

关联规则挖掘适合高频业务策略提取、早期推荐系统冷启动阶段、策略联动系统策略扩充等任务。

关联规则挖掘是一种“结构性发现工具”，其目标不是预测结果，而是发现结构。通过标准化数据结构、明确的指标体系与高效率的算法实现，可以构建稳定的规则提取模块，为系统提供基础的策略候选集与协同信号，是推荐系统与营销联动系统的重要支撑组件。

2. Apriori 算法原理与频繁项集提取流程

Apriori 是最早广泛应用的频繁项集挖掘算法，基于“如果一个项集是频繁的，那么它的所有子集也是频繁的”这一反单调性原则。它通过不断生成候选项集并在数据中统计支持度，再进行剪枝，逐步得到所有满足最小支持度的频繁项集。

2.1 Apriori 算法流程概览

算法核心逻辑如下：

1. 扫描事务数据库，统计单项频率 → 得到 L1（频繁1项集）
2. 组合频繁k项集 → 生成候选(k+1)项集 Ck+1
3. 扫描事务数据库统计 Ck+1 的支持度
4. 剪枝，得到频繁(k+1)项集 Lk+1
5. 循环直到频繁项集为空

最终得到所有频繁项集 L1、L2、…、Ln。

2.2 Python 实现（基于 mlxtend）

from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

transactions = [
    ['milk', 'bread', 'butter'],
    ['milk', 'bread'],
    ['milk', 'cookies'],
    ['bread', 'butter'],
    ['milk', 'bread', 'cookies']
]

encoder = TransactionEncoder()
encoded_array = encoder.fit(transactions).transform(transactions)
df_tf = pd.DataFrame(encoded_array, columns=encoder.columns_)

freq_itemsets = apriori(df_tf, min_support=0.3, use_colnames=True)

输出样例：

+----------------+------------+
| itemsets       | support    |
+----------------+------------+
| [milk]         | 0.80       |
| [bread]        | 0.80       |
| [milk, bread]  | 0.60       |
+----------------+------------+

2.3 生成关联规则

通过 association_rules() 构造 A → B 形式的规则：

from mlxtend.frequent_patterns import association_rules

rules = association_rules(freq_itemsets, metric="confidence", min_threshold=0.6)

输出结构：

antecedents	consequents	support	confidence	lift
[milk]	[bread]	0.60	0.75	1.13

字段说明：

antecedents: 前件项集（A）
consequents: 后件项集（B）
support: 同时出现的比例
confidence: 条件概率 P(B|A)
lift: A 与 B 的协同性强度，>1 表示正相关

2.4 参数调节建议

参数	作用	建议值范围
`min_support`	最小支持度门槛	0.01~0.05（按样本量调整）
`min_threshold`	最小置信度	0.6~0.9
`metric`	排序指标（confidence/lift）	视业务目标选择

低支持度可能产生大量规则，需配合规则数量上限控制。

2.5 输出规则表结构设计

建议将规则输出为结构化文件：

rules["lhs"] = rules["antecedents"].apply(lambda x: list(x))
rules["rhs"] = rules["consequents"].apply(lambda x: list(x))
rules[["lhs", "rhs", "support", "confidence", "lift"]] \
     .to_csv("output/rules_apriori.csv", index=False)