Apriori算法: 布尔关联规则的挖掘_apriori算法和布尔-CSDN博客

本文链接：https://blog.csdn.net/qq_64091900/article/details/143845022

$\textbf{1. }$ 一些基本概念

1️⃣频繁项集

定义： $X$ 频繁 $\xLeftrightarrow{等价于}$ 事务集 $D$ 中含 $X$ 的 $T_i$ 数量( $X$ 支持度)超过阈值 $\xLeftrightarrow{等价于}X$ 满足最小支持度
性质：
如果 $X$ 频繁 $\text{→}X$ 的子集也一定频繁(向下封闭)
如果 $X$ 非频繁 $\text{→}X$ 的超集(如 ${X,x_{n+1},x_{n+2},...\}$ )也一定非频繁

2️⃣闭合集 $\&$ 最大集：为解决组合爆炸( $规则数目\text{ ∝ }2^{数据集规模}$ )问题

定义：对于事务集 $D$
集合含义意义
闭合集(模式) $X$ 闭合 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集的支持度小于 $X$ 的 $D$ 无损压缩
最大集(模式) $X$ 最大 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集都非频繁 $D$ 有损压缩

示例： $D\text{=}\left\{A_1\text{=}\left\langle a_1, a_2, \ldots, a_{100}\right\rangle,A_2\text{=}\left\langle a_1, a_2, \ldots, a_{50}\right\rangle\right\}$ ，最小支持度 $\text{=1}$
集合 $\textbf{Item}$
闭合模式 $A_1$ (支持度 $\text{=1}/$ 无频繁超集)， $A_2$ (支持度 $\text{=2/}$ 频繁超集支持度 $\text{=2}$ )
最大模式 $A_1$ (支持度 $\text{=1}/$ 无频繁超集)
所有模式所有的频繁子集，比如 $\left\langle a_1, \ldots, a_{49}\right\rangle$

集合	含义	意义
闭合集(模式)	$X$ 闭合 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集的支持度小于 $X$ 的	$D$ 无损压缩
最大集(模式)	$X$ 最大 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集都非频繁	$D$ 有损压缩

集合	$\textbf{Item}$
闭合模式	$A_1$ (支持度 $\text{=1}/$ 无频繁超集)， $A_2$ (支持度 $\text{=2/}$ 频繁超集支持度 $\text{=2}$ )
最大模式	$A_1$ (支持度 $\text{=1}/$ 无频繁超集)
所有模式	所有的频繁子集，比如 $\left\langle a_1, \ldots, a_{49}\right\rangle$

$\textbf{2.}$ $\textbf{Apriori}$ 算法

0️⃣总论

原有方案：原始数据 $\xrightarrow{(暴力)生成}$ 关联规则
现有方案：原始数据 $\xrightarrow{\text{Apriori}算法}$ 频繁项集 $\xrightarrow{生成}$ 关联规则

1️⃣算法流程：原始数据 $\xrightarrow{\text{Apriori}算法}$ 频繁项集

初始化：事务 $D\xrightarrow{清洗}$ 单项 $\small\{\{\mathrm{T_1}\}, \{\mathrm{T_2}\},..., \{\mathrm{T_n}\}\}\xrightarrow{满足最小支持度}$ $L_1\text{=}\small\{\{\mathrm{T_{i_1}}\}, \{\mathrm{T_{i_2}}\},..., \{\mathrm{T_{i_m}}\}\}$
主循环：候选集 $L_1\xrightarrow{执行以下操作}$ 候选集 $L_2$ (下一轮循环)
组合：本轮频繁项集 $L_{1}\xrightarrow[(具体见例子)]{两两组合}$ 候选项集 $C_2$
剪枝：候选项集 $C_2\xrightarrow{去处有非频繁子集的项}$ 下一候频繁集 $L_2$ ，以进行下轮以此循环

输出：当循环到 $L_\alpha$ 为空集时停止循环，频繁项集 $L\text{=}\{L_1\text{∪}L_2\text{∪}...\text{∪}L_\alpha\}$

2️⃣频繁项集 $\xrightarrow{生成}$ 关联规则

基本流程：
子集：频繁项集 $L$ 所有非空子集 $S\text{=}\{S_1,S_2,...,S_{2^{|L|}-2}\}$ ，任意 $S_i\text{→}S_j$ 组合满足支持度
规则：对每个子集计算 $\ S i S_i\text{→}L\backslash{}S_i$ 的置信度，若小于阈值则视 $\ S i S_i\text{→}L\backslash{}S_i$ 强相关

效率优化：
原理：对 $(X\text{→}L\text{-}X)$ 置信度不满足阈值 $\xrightarrow{X^{\prime}\text{⊆}X}(X^{\prime}\text{→}L\text{-}X^{\prime})$ 也不满足
优化：先验证 $L\text{-}X$ 只有单一项的规则，若不满足则剪枝/满足则再去验证 $L\text{-}X$ 多项的规则

$\textbf{3.}$ $\textbf{Apriori}$ 算法示例

0️⃣基本条件：事务及其项集如下表，设定最小支持度为 $2$

$\small\textbf{T}$ $\small\textbf{Beer}$ $\small\textbf{Diap.}$ $\small\textbf{Powd}$ $\small\textbf{Bread}$ $\small\textbf{Umbre.}$ $\small\textbf{Milk}$ $\small\textbf{Deter.}$ $\small\textbf{Cola}$
$1$ ✅ ✅ ✅ ✅ ✅ ❌ ❌ ❌
$2$ ❌ ✅ ✅ ❌ ❌ ❌ ❌ ❌
$3$ ✅ ✅ ❌ ❌ ❌ ✅ ❌ ❌
$4$ ✅ ✅ ❌ ❌ ❌ ❌ ✅ ❌
$5$ ✅ ❌ ❌ ❌ ❌ ✅ ❌ ✅

1️⃣ $\text{Apriori}$ 算法：得到频繁项集

初始化： $L_1\xLeftarrow{出现超过两次的商品}\{\small\text{Beer,Diap,Powd,Milk}\}$
主循环：当前为 $L_1$
组合： $L_1 \xrightarrow{\text{简单两两组合}} C_2 \text{=} \left\{ \small {\begin{bmatrix} \text{Beer} \\ \text{Diap} \end{bmatrix}}, \cancel{\begin{bmatrix} \text{Beer} \\ \text{Powd} \end{bmatrix}}, \begin{bmatrix} \text{Beer} \\ \text{Milk} \end{bmatrix}, \begin{bmatrix} \text{Diap} \\ \text{Powd} \end{bmatrix}, \cancel{ \begin{bmatrix} \text{Diap} \\ \text{Milk} \end{bmatrix}}, \cancel{ \begin{bmatrix} \text{Powd} \\ \text{Milk} \end{bmatrix}} \right\}$
剪枝： $C_2\xrightarrow{剪掉包含非频繁子集的}L_2\text{=}\left\{ \small \begin{bmatrix} \text{Beer} \\ \text{Diap} \end{bmatrix}, \begin{bmatrix} \text{Beer} \\ \text{Milk} \end{bmatrix}, \begin{bmatrix} \text{Diap} \\ \text{Powd} \end{bmatrix} \right\}$

主循环：当前为 $L_2$
组合： $L_2 \xrightarrow[组合逻辑见下表]{\text{两两组合}} C_3\text{=}\left\{ \small \cancel{ \begin{bmatrix} \text{Beer} \\ \text{Diap} \\ \text{Milk} \\ \end{bmatrix}}, \cancel{ \begin{bmatrix} \text{Beer} \\ \text{Diap} \\ \text{Powd} \end{bmatrix}}\right\}$
合并的集条件: 二者有 $k\text{-1}$ 项(此处为 $1$ )相等操作
$L_2[1]/L_2[2]$ 共有 ${Beer}\text{→}$ 满足执行组合
$L_2[1]/L_2[3]$ 共有 ${Diap}\text{→}$ 满足执行组合
$L_2[2]/L_2[3]$ 不满足不执行组合

剪枝： $C_2\xrightarrow{剪掉包含非频繁子集的}L_3\text{=}\varnothing$ ，故终止循环

输出： $L\text{=}L_1\text{∪}L_2\text{=}\left\{ \small \text{Beer}, \text{Diap}, \text{Powd}, \text{Milk}, \begin{bmatrix} \text{Beer} \\ \text{Diap} \end{bmatrix}, \begin{bmatrix} \text{Beer} \\ \text{Milk} \end{bmatrix}, \begin{bmatrix} \text{Diap} \\ \text{Powd} \end{bmatrix} \right\}$
2️⃣生成规则 $\text{→ } \small \begin{array}{|c|c|c|c|} \hline \text{Item} & \text{Support(A,B)} & \text{Support A} & \text{Confidence} \\ \hline \text{Beer} \to \text{Diaper} & 60 \% & 80 \% & 75 \% \\ \hline \text{Beer} \to \text{Milk} & 40 \% & 80 \% & 50 \% \\ \hline \text{Diaper} \to \text{Powd} & 40 \% & 80 \% & 50 \% \\ \hline \text{Diaper} \to \text{Beer} & 60 \% & 80 \% & 75 \% \\ \hline \text{Milk} \to \text{Beer} & 40 \% & 40 \% & 100 \% \\ \hline \text{Powd} \to \text{Diaper} & 40 \% & 40 \% & 100 \% \\ \hline \end{array} \text{ etc.....}$

$\small\textbf{T}$	$\small\textbf{Beer}$	$\small\textbf{Diap.}$	$\small\textbf{Powd}$	$\small\textbf{Bread}$	$\small\textbf{Umbre.}$	$\small\textbf{Milk}$	$\small\textbf{Deter.}$	$\small\textbf{Cola}$
$1$	✅	✅	✅	✅	✅	❌	❌	❌
$2$	❌	✅	✅	❌	❌	❌	❌	❌
$3$	✅	✅	❌	❌	❌	✅	❌	❌
$4$	✅	✅	❌	❌	❌	❌	✅	❌
$5$	✅	❌	❌	❌	❌	✅	❌	✅

合并的集	条件: 二者有 $k\text{-1}$ 项(此处为 $1$ )相等	操作
$L_2[1]/L_2[2]$	共有 ${Beer}\text{→}$ 满足	执行组合
$L_2[1]/L_2[3]$	共有 ${Diap}\text{→}$ 满足	执行组合
$L_2[2]/L_2[3]$	不满足	不执行组合

$\small\textbf{T}$	$\small\textbf{Beer}$	$\small\textbf{Diap.}$	$\small\textbf{Powd}$	$\small\textbf{Bread}$	$\small\textbf{Umbre.}$	$\small\textbf{Milk}$	$\small\textbf{Deter.}$	$\small\textbf{Cola}$
$1$	✅	✅	✅	✅	✅	❌	❌	❌
$2$	❌	✅	✅	❌	❌	❌	❌	❌
$3$	✅	✅	❌	❌	❌	✅	❌	❌
$4$	✅	✅	❌	❌	❌	❌	✅	❌
$5$	✅	❌	❌	❌	❌	✅	❌	✅

Apriori算法: 布尔关联规则的挖掘

1. \textbf{1. } 1. 一些基本概念

2. \textbf{2.} 2. Apriori \textbf{Apriori} Apriori算法

3. \textbf{3.} 3. Apriori \textbf{Apriori} Apriori算法示例

$\textbf{1. }$ 一些基本概念

$\textbf{2.}$ $\textbf{Apriori}$ 算法

$\textbf{3.}$ $\textbf{Apriori}$ 算法示例

$\small\textbf{T}$	$\small\textbf{Beer}$	$\small\textbf{Diap.}$	$\small\textbf{Powd}$	$\small\textbf{Bread}$	$\small\textbf{Umbre.}$	$\small\textbf{Milk}$	$\small\textbf{Deter.}$	$\small\textbf{Cola}$
$1$	✅	✅	✅	✅	✅	❌	❌	❌
$2$	❌	✅	✅	❌	❌	❌	❌	❌
$3$	✅	✅	❌	❌	❌	✅	❌	❌
$4$	✅	✅	❌	❌	❌	❌	✅	❌
$5$	✅	❌	❌	❌	❌	✅	❌	✅