Apriori and FP-tree（Simple Example）

最新推荐文章于 2022-10-03 10:48:49 发布

bryant_meng

最新推荐文章于 2022-10-03 10:48:49 发布

阅读量414

点赞数 2

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/bryant_meng/article/details/80864910

版权

Machine Learning 专栏收录该内容

24 篇文章 4 订阅

订阅专栏

1 关联规则挖掘

在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。

2 应用

购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。

3 规则度量

查找所有的规则 $X,Y \rightarrow Z$ 具有最小支持度和可信度

支持度, Support 一次交易中包含 $\{X 、 Y 、 Z\}$ 的可能性

S u p p o r t (X, Y \to Z) = N ( X , Y , Z ) N

$Support(X,Y \rightarrow Z) = \frac{N(X,Y,Z)}{N}$

可信度, Confidence, 包含 $\{X 、 Y\}$ 的交易中也包含 $Z$ 的条件概率
$C o n f i d e n c e (X, Y \to Z) = \frac{N (X, Y, Z)}{N (X, Y)}$ $Confidence(X,Y \rightarrow Z) = \frac{N(X,Y,Z)}{N(X,Y)}$

求解所有 $S \geq S_{min}$ 、 $C \geq C_{min}$ 的组合

例如：

$Support(a \Rightarrow c ) = 2/4 = 50\%$

$Confidence(a \Rightarrow c ) = 2/3 = 66.7\%$

a \Rightarrow c (50 %, 66.7 %)

$a \Rightarrow c \ (50\%, 66.7\%)$

$Support(c \Rightarrow a ) = 2/4 = 50\%$

$Confidence(c \Rightarrow a ) = 2/2 = 100\%$

c \Rightarrow a (50 %, 100 %)

$c \Rightarrow a \ (50\%, 100\%)$

4 Apriori

4.1 基本思想

频繁项集的任何子集也一定是频繁的
如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。

4.2 算法的核心

用频繁的(k – 1)项集生成候选的频繁 k项集
用数据库扫描和模式匹配计算候选集的支持度

4.3 Simple Example

$S_{min} = 50 \%$ , $C_{min} = 90 \%$ , 计算满足所有条件的关联规则
这里写图片描述

最小频数为： $Number of items × S_{min} = 4 × 50\% = 2$

C1：扫描数据库，统计 each item 的频数
L1：与最小频数比较，剔除 $S<S_{min}$ 的items，结果为一项频繁集
C2： L1中items 两两结合， $C_{n}^{2}$ ，扫描数据库，统计 each 二项组合item 的频数
L2：与最小频数比较，剔除 $S<S_{min}$ 的items，结果为二项频繁集
C3：扫描L2每项， $C_{n}^{2}$ ，注意，比每项的第一个元素，一样的就合并，不一样的pass，论文中证明了这种方法的完备性（因为频繁项的子集一定是频繁的），扫描数据库，统计 each 三项组合item 的频数

eg：AC+BC pass， AC+BE pass， AC+CE pass，BC+BE 合并 BCE，BC+CE pass，BE+CE pass，结果为 BCE

L3：与最小频数比较，剔除 $S<S_{min}$ 的items，结果为三项频繁集
………………

二项频繁集的强关联关系：

C o n f i d e n c e (A \to C) = 2 / 2 > C m i n

$Confidence(A \rightarrow C) = 2/2 > C_{min}$

C o n f i d e n c e (C \to A) = 2 / 3 < C m i n

$Confidence(C \rightarrow A) = 2/3 < C_{min}$

三项频繁集的强关联关系：

C o n f i d e n c e (B, C \to E) = 2 / 2 > C m i n

$Confidence(B,C \rightarrow E) = 2/2 > C_{min}$

C o n f i d e n c e (B, E \to C) = 2 / 3 < C m i n

$Confidence(B,E \rightarrow C) = 2/3< C_{min}$

C o n f i d e n c e (C, E \to B) = 2 / 2 > C m i n

$Confidence(C,E \rightarrow B) = 2/2 > C_{min}$

C o n f i d e n c e (B \to C, E) = 2 / 3 < C m i n

$Confidence(B \rightarrow C,E) = 2/3<C_{min}$

C o n f i d e n c e (C \to B, E) = 2 / 3 < C m i n

$Confidence(C \rightarrow B,E) = 2/3<C_{min}$

C o n f i d e n c e (E \to B, C) = 2 / 3 < C m i n

$Confidence(E \rightarrow B,C) = 2/3<C_{min}$

结果为：

A \to C

$A \rightarrow C$

B, C \to E

$B,C \rightarrow E$

C, E \to B

$C,E \rightarrow B$

4.4 Apriori 的瓶颈

巨大的候选集:
$10^4$ 个频繁1-项集要生成 $10^7$ 个候选 2-项集，要找尺寸为100的频繁模式，如 {a1, a2, …, a100}, 你必须先产生 $2^{100} \approx 10^{30}$ 个候选集
多次扫描数据库：
如果最长的模式是 $n$ 的话，则需要 $(n +1 )$ 次数据库扫描