关联规则挖掘与算法
一、支持度与频繁项目集:
(注:编辑器会根据文章标题自动生成目录) 一、事务数据库:
二、支持度与频繁项目集:
如表所示交易数据库,其项集 I={a,b,c,d,e},
T | 购买的商品 |
---|---|
t1 | a,b,c,d |
t2 | b,c,e |
t3 | a,b,c,e |
t4 | b,d,e |
t5 | a,b,c,d |
1、支持度:
例:{a,b}在D上的支持度为:3/5
{b,d}在D上的支持度为:3/5
2、频繁项目集
(1)频繁项目集(Frequent Itemsets):
还是看上面的表,假设最小支持度为0.4
D的个数为:5
计算出最小支持数:0.4x5=2
(候选频繁1-项集C1)
I-项集 | 支持数 |
---|---|
{a} | 3 |
{b} | 5 |
{c} | 4 |
{d} | 3 |
{e} | 3 |
(频繁1-项集L1)
I-项集 | 支持数 |
---|---|
{a} | 3 |
{b} | 5 |
{c} | 4 |
{d} | 3 |
{e} | 3 |
(候选频繁2-项集C2)
I-项集 | 支持数 |
---|---|
{a,b} | 3 |
{a,c} | 3 |
{a,d} | 2 |
{a,e} | 1 |
{b,c} | 4 |
{b,d} | 3 |
{b,e} | 3 |
{c,d} | 2 |
{c,e} | 2 |
{d,e} | 1 |
(频繁2-项集L2)
I-项集 | 支持数 |
---|---|
{a,b} | 3 |
{a,c} | 3 |
{a,d} | 2 |
{b,c} | 4 |
{b,d} | 3 |
{b,e} | 3 |
{c,d} | 2 |
{c,e} | 2 |
(候选频繁3-项集C3)
I-项集 | 支持数 |
---|---|
{a,b,c} | 3 |
{a,b,d} | 2 |
{a,b,e} | 1 |
{b,c,d} | 2 |
{b,c,e} | 2 |
(频繁3-项集L3)
I-项集 | 支持数 |
---|---|
{a,b,c} | 3 |
{a,b,d} | 2 |
{b,c,d} | 2 |
{b,c,e} | 2 |
(候选频繁4-项集C4)
I-项集 | 支持数 |
---|---|
{a,b,c,d} | 2 |
{a,b,c,e} | 1 |
(频繁4-项集L4)
I-项集 | 支持数 |
---|---|
{a,b,c,d} | 2 |
无(频繁4-项集L4)
综上所诉:频繁项目集为:{{a},{b},{c},{d},{e},{a,b},{a,c},{a,d},{b,c},{b,d},{b,e},{c,d},{c,e},{a,b,c},{a,b,d},{b,c,d},{b,c,e},{a,b,c,d}}
(2)最大频繁项目集(Maximum Frequent Itemsets)
频繁项目集中挑选出所有不被其它元素包含的频繁项目集
上面的频繁项目集{{a},{b},{c},{d},{e},{a,b},{a,c},{a,d},{b,c},{b,d},{b,e},{c,d},{c,e},{a,b,c},{a,b,d},{b,c,d},{b,c,e},{a,b,c,d}}
最大频繁项目集:{{b,c,e},{a,b,c,d}}。
二、置信度与关联规则
1、置信度(Confidence)又称信任度、可信度。有如下定义:
还是以上面那个表为例,为看时更加方便,我将上面那个表移了下来。
如表所示交易数据库,其项集 I={a,b,c,d,e},
T | 购买的商品 |
---|---|
t1 | a,b,c,d |
t2 | b,c,e |
t3 | a,b,c,e |
t4 | b,d,e |
t5 | a,b,c,d |
I1={b,c},I2={d}
含有{b,c}的有t1、t2、t3、t5.
含有{b,c,d}的有t1、t5.
2、强关联规则
(Strong Association Rule):
D在I中满足最小支持度和最小信任度的关联规则称为强关联规则。
(这里的满足是指大于等于)
三、 Appriori
1、Appriori属性1:如果项目集X是频繁项目集,哪么它的所有非空子集都是频繁项目集。
2、Appriori属性2:如果项目集X是非频繁项目集,那么它的所有超集都是非频繁项目集。
超集:如图S1是S2的超集。
Apriori算法的目标是找到最大的K项频繁集
由此可生成强关联规则
首先找出:候选频繁1-项集以及支持度,根据最小支持度进行剪枝得到频繁1-项集以及支持度,链接生成候选频繁2项集。2、进行迭代直到得出最大的K项频繁集。
四、关联规则
1、关联规则生成步骤:
2、强关联规则
(大于等于最小支持度与置信度)
下面是最大频繁项目集{2,3,5}的强关联规则
下面给出两条定理: