读书笔记 -- 011_数据挖掘_频繁模式_关联性_相关性_1

最新推荐文章于 2023-04-05 09:30:17 发布

烤鱼想睡觉

最新推荐文章于 2023-04-05 09:30:17 发布

阅读量1.4k

点赞数

分类专栏：数据挖掘算法

本文链接：https://blog.csdn.net/redaihanyu/article/details/50321093

版权

数据挖掘同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

算法

10 篇文章 1 订阅

订阅专栏

概念

频繁模式(frequent pattern)：是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘搜索给定数据集中反复出现的联系。
支持度(support)和置信度(confidence)是关联规则的两种度量。他们分别反映所发现规则的有用性和确定性。例如：
computer=>antivirus_software[support = 2%; confidence = 60%]，
其中支持度2%表示所有事务的2%显示电脑和杀毒软件被同时购买，置信度60%表示购买计算机的顾客也购买了杀毒软件。

2、关联规则
设 $I= \{I_1,I_2,...,I_m\}$ 是项的集合。设任务相关的数据 $D$ 是数据库事务的集合，其中每个事务 $T$ 是一个非空项集，使得 $T\subseteq I$ 。每一个事务都有一个标识符，成为 $TID$ 。设 $A$ 是一个项集，事务 $T$ 包含 $A$ ，当且仅当 $A\subseteq T$ 。关联规则是形如 $A \Rightarrow B$ 的蕴含式，其中 $A\subseteq I$ ， $B\subseteq I$ ， $A\neq\varnothing$ ， $B\neq\varnothing$ ，并且 $A\cap B=\varnothing$ 。规则 $A \Rightarrow B$ 在事务集D中成立，具有 支持度 $s$ ，其中 $s$ 是 $D$ 中事务包含 $A\cup B$ (即集合 $A$ 和 $B$ 的并或 $A$ 和 $B$ 二者)的百分比。它是概率 $P(A\cup B)$ 。规则 $A \Rightarrow B$ 在事务集 $D$ 中具有置信度 $c$ ，其中 $c$ 是 $D$ 包含 $A$ 的事务同时也包含 $B$ 的事务的百分比。这是条件概率 $P(B | A)$ 。即，

s u p p o r t (A \Rightarrow B) = P (A \cup B) = (σ ( A \cup B ) N) (公 式 1)

$support(A \Rightarrow B) = P(A\cup B) = \left(\frac{\sigma(A\cup B)}{N}\right) (公式1)$

c o n f i d e n c e (A \Rightarrow B) = P (B | A) = (σ ( A \cup B ) σ ( A )) (公 式 2)

$confidence(A \Rightarrow B) = P(B | A) = \left(\frac{\sigma(A\cup B)}{\sigma(A)}\right) (公式2)$
其中，

σ(X) $\sigma(X)$ 表示项集

X $X$ 的支持度计数。同时满足最小支持度阈值

(min_sup) $(min\_sup)$ 和最小置信度阈值

(max_conf) $(max\_conf)$ 的规则成为强规则。

给定事务的集合 $T$ ，关联规则发现是指找出支持度大于等于 $min\_sup$ 并且置信度大于等于 $min\_conf$ 的所有规则。挖掘关联规则的一种原始方法是：计算每个可能规则的支持度和置信度。但是这种方法的代价太高了，令人望而却步，因为可以从数据集中提取的规则的数目达到指数级。更具体地说，从包含 $n$ 个项的数据集提取的可能规则的总数为：

R = 3 n - 2 (n + 1) + 1

$R = 3^n - 2^{(n+1)} + 1$
为了避免不必要的开销，事先对规则剪枝，而无须计算它们的支持度和置信度的值将是有益的。提高关联规则挖掘算法性能的第一步是拆分支持度和置信度要求。由公式1可以看出，规则

A⇒B $A \Rightarrow B$ 的支持度仅仅依赖于其对应项集

A∪B $A\cup B$ 的支持度。例如，下面的规则有相同的支持度，因为他们涉及的项都源自于同一个项集{啤酒，尿布，牛奶}:
{啤酒，尿布}->{牛奶}，{啤酒，牛奶}->{尿布}，
{牛奶，尿布}->{啤酒}，{啤酒}->{尿布，牛奶}，
{尿布}->{牛奶，啤酒}，{牛奶}->{尿布，啤酒}
如果项集{啤酒，尿布，牛奶}是非频繁的，则可以立即去掉这6个候选规则，则不必计算他们的置信度值。

因此，关联规则的挖掘是一个两步的过程：
(1)找出所有的频繁项集：根据定义，这些项集的每一个频繁出现的次数至少与预定义的最小支持度计数 $min\_sup$ 一样。
(2)由频繁项集产生强关联规则：根据定义，这些规则必须满足最小支持度和最小置信度。
可以使用附加的兴趣度度量来发现相关联的项之间的相关联系。由于第二步的开销远小于第一步，因此挖掘关联规则的总体性能由第一步决定。

例：
这里写图片描述
上表中：规则 $\{(牛奶，尿布) \Rightarrow (啤酒)\}$ 的支持度 = 0.4，置信度=0.67

3、频繁项集的产生
发现频繁项集的一种原始的方法是确定每个候选项集的支持度计数。为了完成这一个任务，必须将每个候选项集与每个事务进行比较。

有几种方法可以降低产生频繁项集的计算复杂度：
(1)减少候选项集的数目：下面介绍的先验(apriori)原理，是一种不用计算支持度值而删除某些候选项集的有效方法。
(2)减少比较次数：替代将每个候选项集与每个事务相匹配，可以使用更高级的数据结构，或者存储候选项集或者压缩数据集，来减少比较的次数。

4、Apriori算法，通过限制候选产生发现频繁项集

(1)先验原理：
(a)定理：如果一个项集是频繁的，则它的所有非空子集也一定是频繁的；
(b)单调性：令 $I$ 是项的集合， $J=2^I$ 是 $I$ 的幂集。度量 $f$ 是单调的(或向上封闭的)，如果

\forall X, Y \in J : (X \subseteq Y) \to f (X) \leq f (Y)

$\forall X,Y \in J : (X \subseteq Y) \to f(X) \le f(Y)$ 这表示如果

X $X$ 是

Y $Y$ 的子集，则

f(Y) $f(Y)$ 一定不超过

f(X) $f(X)$ 。例如，如果项集

a,b,c ${a,b,c}$ 是非频繁项集，则它的超集也一定是非频繁的，那么包含项集

a,b,c ${a,b,c}$ 的所有超集的可以被立即剪枝。这种基于支持度度量修剪指数搜索空间的策略称之为 基于支持度的剪枝。

(2)Apriori算法

**算法原理：**Apriori使用一种称之为逐层搜索的迭代方法，其中 $k$ 项集用于探索 $(k + 1)$ 项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项找出频繁1项集的集合。该集合记为 $L_1$ 。然后，使用 $L_1$ 找出频繁2项集的集合 $L_2$ ，使用 $L_2$ 找出 $L_3$ 。如此下去，直到再也找不到频繁 $k$ 项集。找出每个 $L_k$ 需要一次数据库的完整扫描。

令 $C_k$ 为候选k-项集的集合，而 $F_k$ 为频繁k-项集的集合。
Apriori算法伪代码
(1)该算法初始通过单遍扫描数据集，确定每个项的支持度。一旦完成这一步，就得到所有频繁1-项集的集合 $F_1$ (步骤1和步骤2)。
(2)接下来，该算法将使用上一次迭代发现的频繁(k-1)-项集，产生新的候选k-项集(步骤5)。候选的产生使用apriori-gen函数实现。
(3)为了对候选项的支持度计数，算法需要再次扫描一遍数据集(步骤6~10)。使用子集函数确定包含在每一个事务t中的 $C_k$ 中的所有候选k-项集。
(4)计算候选项的支持度计数之后，算法将删去支持度计数小于 $minup$ 的所有候选项集(步骤12)。
(5)当没有新的频繁项集产生，即 $F_k=\varnothing$ 时，算法结束(步骤13)。
Apriori算法的频繁项集产生的部分有两个重要的特点：第一，它是逐层算法，他每次遍历项集格中的一层；第二，它使用产生-测试(generate-and-test)策略发现频繁项集。该算法总的迭代次数是 $K_{max} + 1$ ，其中 $K_{max}$ 是频繁项集的最大长度。

(3)候选的产生和剪枝
a.候选项集的产生，连接步：为了找出 $L_k$ ，通过将 $L_{k-1}$ 与自身连接产生候选 $K$ 项集的集合。
b.候选项集的剪枝，剪枝步：扫描数据库，确定候选的计数，删除支持度计数小于 $support_min$ 的候选。并非所有的候选都要确定其计数，如果其子项集不是频繁项集，则确定其不是频繁项集。

(3.a)连接步：候选项集的产生

a.蛮力方法：把所有的k-项集都看作可能的候选，然后使用候选剪枝除去不必要的候选。第 $k$ 层产生的候选项集的数目为 $C_d^k$ ，其中， $d$ 是项的总数。虽然候选产生是相当简单的，但是候选剪枝的开销极大，因为必须考察的项集数量太大。设每一个候选项集所需的计算量为 $O(k)$ ，这种方法的总复杂度为 $O(\sum_{k=1}^dKC_d^k) = O(d\cdot2^{d-1})$ 。

b. $F_{k-1}\cdot F_1$ 方法：这种方法是完备的，因为每一个频繁 $k$ -项集都是由一个频繁 $(k-1)$ -项集和频繁1-项集组成的。然而，这种方法很难避免重复地产生候选项集。避免产生重复的候选项集的一种方法是确保每个频繁项集中的项以字典序存储，每个频繁 $(k-1)$ -项集X只用字典序比X中所有的项都大的频繁项进行扩展。尽管这种方法比蛮力方法有明显的改进，但是仍然会产生大量不必要的候选。

c. $F_{k-1}\cdot F_{k-1}$ 方法：函数apriori-gen函数的候选产生过程合并一对频繁 $(k-1)-$ 项集，仅当他们的前 $k-2$ 个项都相同。令 $A = \{ a_1,a_2,...,a_{k-1} \}$ 和 $B = \{ b_1,b_2,...,b_{k-1} \}$ 是一对频繁 $(k-1)$ -项集，合并 $A$ 和 $B$ ，如果他们满足如下的条件：

a i = b i (i = 1, 2, 3, . . ., k - 2) 并 且 a k - 1 \neq b k - 1

$a_i=b_i (i=1,2,3,...,{k-2})并且a_{k-1} \neq b_{k-1}$

(4)基于Hash树进行支持度计数
在Apriori算法中，候选项集划分为不同的桶，并存放在Hash树中。在支持度计数期间，包含在事务当中的项集也散列到相应的桶中。这种方法不是将事务中的每个项集与所有的候选项集进行比较，而是将它与同一个桶内候选项集进行匹配。图略。

5、由频繁项集产生关联规则
一旦由数据库中产生频繁项集，就可以直接由他们产生强关联规则(强关联规则满足最小支持度和最小置信度)。
对于置信度，可以用如下公式进行计算：

c o n f i d e n c e (A \to B) = P (B | A) = (σ ( A \cup B ) σ ( A ))

$confidence(A\to B) = P(B | A) = \left(\frac{\sigma(A\cup B)}{\sigma(A)}\right)$
对于支持度，可以用如下的公式计算：

s u p p o r t (A \to B) = P (A \cup B) = (σ ( A \cup B ) N)

$support(A\to B) = P(A\cup B) = \left(\frac{\sigma(A\cup B)}{N}\right)$

每个频繁 $k-$ 项集能够产生多达 $2^k - 2$ 个关联规则。关联规则可以这样提取：将项集 $Y$ 划分成两个非空的子集 $X$ 和 $Y-X$ ，使得 $X\to X-Y$ 满足置信度阈值。

计算关联规则的置信度并不需要再次扫描事务数据集。因为置信度 $\sigma(A\cup B) / \sigma(A)$ 。这两个项集在支持度计数已经在频繁项集产生的时候已经得到，因此不必再次扫描整个数据集。

6、基于置信度的剪枝
不像支持度度量，置信度不具有任何单调性。例如:规则 $X\to Y$ 的置信度可能大于、小于或者等于规则 $X'\to Y'$ 的置信度，其中 $X'\subseteq X$ 且 $Y'\subseteq Y$ 。尽管如此，当比较由频繁项集 $Y$ 产生的规则时，下面的定理对置信度度量成立。

定理: 如果规则 $X\to {Y-X}$ 不满足置信度阈值，则形如 $X'\to {Y-X'}$ 的规则一定也不满足置信度阈值，其中 $X'$ 是 $X$ 的子集。

7、频繁项集的紧凑表示
(a)极大频繁项集：极大频繁项集的直接超集都不是频繁的。极大频繁项集有效地提供了频繁项集的紧凑表示。换句话说，极大频繁项集形成了可以导出所有频繁项集的最小的项集的集合。
(b)闭项集：如果项集 $X$ 的直接超集都不具有和他相同的支持度计数。闭项集提供了频繁项集的一种最小表示，该表示不丢失支持度信息。
(c)闭频繁项集：如果一个项集是闭的，并且它的支持度大于或等于最小支持度阈值。闭频繁项集的集合包含了频繁项集的完整信息。不会存在其它的项总是和闭频繁项集一起出现，否则闭频繁项集就包含它了。
频繁项集、极大频繁项集和闭频繁项集的关系

例：
腾讯应用宝使用Apriori算法实现的App推荐

烤鱼想睡觉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
读书笔记 -- 011_数据挖掘_频繁模式_关联性_相关性_1

概念频繁模式(frequent pattern)：是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘搜索给定数据集中反复出现的联系。支持度(support)和置信度(confidence)是关联规则的两种度量。他们分别反映所发现规则的有用性和确定性。例如： computer=>antivirus_software[support = 2%; c
复制链接

扫一扫