Apriori算法的介绍

最新推荐文章于 2024-06-28 00:19:05 发布

九茶

最新推荐文章于 2024-06-28 00:19:05 发布

阅读量1.1w

点赞数 3

分类专栏：算法数据挖掘小算法大本营文章标签：关联分析频繁项集 Apriori

本文链接：https://blog.csdn.net/Bone_ACE/article/details/46660819

版权

算法同时被 3 个专栏收录

25 篇文章 1 订阅

订阅专栏

小算法大本营

23 篇文章 17 订阅

订阅专栏

数据挖掘

14 篇文章 1 订阅

订阅专栏

前言：

数据挖掘中的关联分析可以分成频繁项集的挖掘和关联规则的生成两个步骤，而Apriori算法是找频繁项集最常用到的一种算法。
关于关联分析和频繁项集请见：什么是关联分析？

中言：

我们还是利用购物篮的例子来讲述Apriori算法的思路。

购物篮信息如下：

TID Items
001 Cola, Egg, Ham
002 Cola, Diaper, Beer
003 Cola, Diaper, Beer, Ham
004 Diaper, Beer

TID代表交易流水号，Items代表一次交易的商品。

TID	Items
001	Cola, Egg, Ham
002	Cola, Diaper, Beer
003	Cola, Diaper, Beer, Ham
004	Diaper, Beer

我们Apriori算法的最终目的就是要找出数据集中的频繁项集，把最小支持度阈值设为50%，则最终挖掘结果如下（后面的数字表示该项集的支持度计数）：

频繁1-项集：
{Cola} 3
{Diaper} 3
{Beer} 3
{Ham} 2

频繁2-项集：
{Cola, Diaper} 2
{Cola, Beer} 2
{Cola,Ham} 2
{Diaper, Beer} 3

频繁3-项集：
{Cola, Diaper, Beer} 2

Apriori算法的思路是由频繁(k-1)-项集生成候选k-项集，然后根据最小支持度判断该候选k-项集是否是频繁k-项集。
例如先找出所有1-项集，然后筛选出里面的频繁1-项集；根据频繁1-项集生成候选2-项集，然后筛选出里面的频繁2-项集；再根据频繁2-项集生成候选3-项集，从里面筛选出频繁3-项集；·······

那么问题来了，如何从频繁(k-1)-项集生成候选k-项集呢？
答案是利用Apriori性质：一个频繁项集的任一子集也应该是频繁子集（用反证法容易证明，略）。所以如果一个项集是非频繁项集，那么它的超集也应该是非频繁项集。
例如{Cola, Diaper}是频繁项集，所以{Cola}和{Diaper}也应该是频繁项集。因为{Egg}是非频繁项集，所以{Cola, Egg}也是非频繁项集。

从频繁1-项集生成候选2-项集的步骤是：把频繁1-项集和频繁1-项集排列组合成2-项集，把含有非频繁子项集的2-项集去掉，就是候选2-项集了。

从频繁2-项集生成候选三项集的步骤是：把频繁2-项集和频繁1-项集排列组合成3-项集：{Cola, Diaper, Beer}、{Cola, Diaper, Ham}、{Cola, Beer, Ham}、{Diaper, Beer, Ham}。
因为{Diaper, Ham}不是频繁2-项集，所以含有{Diaper, Ham}的{Cola, Diaper, Ham}不是候选3-项集，去掉。因为{Beer, Ham}不是频繁2-项集，所以含有{Beer, Ham}的{Cola, Beer, Ham}、{Diaper, Beer, Ham}不是候选3-项集，去掉。
所以候选3-项集只有{Cola, Diaper, Beer}。

购物篮频繁项集的挖掘过程如下：
这里写图片描述

Apriori算法描述如下（代码源自《数据挖掘原理与实践》）：

算法：Apriori 算法的频繁项集的产生
输入：数据集D；最小支持度阈值min_sup
输出：D 中的频繁项集L
(1) $L_1$ = find_frequent_1-itemset( D );
(2) for( k=2; $L_{k-1} \neq \Phi$ ; k++)
(3) {
(4)　　 $C_k$ = apriori_gen( $L_{k-1}$ );　　　　　　// 产生候选项集
(5)　　for all transactions t $\in$ D
(6)　　{
(7)　　　　 $C_t$ = subset( $C_k$ , t);　　　　　　// 识别 t 包含的所有候选
(8)　　　　for all candidates $c\in C_t$
(9)　　　　{
(10)　　　　　　c.count++;　　　　　　// 支持度计数增值
(11)　　　 }
(12)　　}
(13)　　 $L_k$ = { $c \in C_k$ | c.count≥min_sup}　　　　　　// 提取频繁k-项集
(14) }
(15) return $L = \cup_k L_k$ ;

procedure apriori_gen( $L_{k-1}$ )
(1) for each itemset $l_1\in L_{k-1}$
(2)　　for each itemset $l_2 \in L_{k-1}$
(3)　　　　if( $l_1$ [1]= $l_2$ [1] ∧…∧ ( $l_1$ [k-2]= $l_2$ [k-2] ) ∧ ( $l_1$ [k-1]< $l_2$ [k-2] ) then
(4)　　　　｛
(5)　　　　　　c = join( $l_1$ , $l_2$ );　　　　　　// 连接：产生候选
(6)　　　　　　if has_infrequent_subset( c, $L_{k-1 }$ ) then
(7)　　　　　　　　delete c;　　　　　　// 减枝：移除非频繁的候选
(8)　　　　　　else
(9)　　　　　　　　add c to $C_k$
(10)　　　　｝
(11) return $C_k$ ;

procedure has_infrequent_subset( c, $L_{k-1}$ )
// 使用先验知识判断候选项集是否频繁
(1) for each ( k-1 )-subset s of c
(2)　　if s $\notin L_{k-1}$ then
(3)　　　　return TRUE;
(4) return FALSE;