兴趣度度量
-
概念
- 挖掘出的模式(规律的表示形式)的简洁性、确定性和实用性即为兴趣度度量。
-
简洁性度量
- 含义
模式的便于人理解的度量
- 含义
-
确定性度量
- 含义
模式的有用性 - 方法
对于关联规则,确定性度量使用置信度。
设A和B为项目集合,A与B关联的规则A→B的置信度定义为
置 信 度 ( A → B ) = 同 时 包 含 A 、 B 的 元 组 包 含 A 的 元 组 数 置信度(A→B)=\frac{同时包含A、B的元组}{包含A的元组数} 置信度(A→B)=包含A的元组数同时包含A、B的元组 - 例子
下图置信度(A→B)=3/3- A B C D 1 0 0 0 0 2 1 1 0 0 3 1 1 1 1 4 1 1 1 0
- 含义
-
实用性度量
- 含义
模式的有用性 - 方法
对于关联规则,实用性度量使用支持度。
设A和B为项目集合,A与B关联的规则A→B的支持度定义为
支 持 度 ( A → B ) = 同 时 包 含 A 、 B 的 元 组 元 组 总 数 支持度(A→B)=\frac{同时包含A、B的元组}{元组总数} 支持度(A→B)=元组总数同时包含A、B的元组 - 例子
下图支持度(A→B)=3/4- A B C D 1 0 0 0 0 2 1 1 0 0 3 1 1 1 1 4 1 1 1 0
- 含义
关联规则算法-Apriori算法
-
频繁集
- 某个集合若存在不是频繁集的子集,那么该集合也不是频繁集;
- 若某个集合为频繁集,那么其所有非空子集均为频繁集。
-
连接步
- 为找Lk,通过Lk-1与自己连接产生候选k-项集的集合。该候选项集的集合记为Ck。设l1和l2是Lk-1中的项集。记号为li[j]表示li的第j项。为方便计,假定事务或项集中的项按字典次序排序。执行连接Lk-1∞Lk-1,其中Lk-1的元素是可连接的。连接L1项集和L2项集产生的结果是项集l1[1]l2[2]………l1[k-1]l2[k-1].
-
剪枝步
- Ck是Lk的超集;即是,它的成员可以是也可以不是频集,但所有的频集k-项集都包含在Ck中。扫描数据库,确定Ck中每个候选的计数,从而确定Lk。然而,Ck可能很大,这样所涉及的计算量就很大。为压缩Ck,可以利用以下办法使用Apriori性质:任何非频集的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以有Ck中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。
-
频繁集求法
TID 项目 $T10 I1,I2,I5 $T20 I2,I4 $T30 I2,I3 $T40 I1,I2,I4 $T50 I1,I3 $T60 I2,I3 $T70 I1,I3 $T80 I1,I2,I3,I5 $T90 I1,I2,I3 - 先求1-频繁集,统计每个项目出现的次数
假定最小支持事务支持数为2,由下表可以得出1-频繁集为{I1,I2,I3,I4,I5}
项目 次数 I1 6(频繁) I2 7(频繁) I3 6(频繁) I4 2(频繁) I5 2 (频繁) - 由1-频繁集求出2-频繁集
在1-频繁集中任取2个组成集合,统计在原事务集合中出现的次数;例如{I1,I2},则须统计事务中同时出现项目I1, I2的数目
项目 次数 I1,I2 4(频繁) I1,I3 4(频繁) I1,I4 1(去掉) I1,I5 2(频繁) I2,I3 4(频繁) I2,I4 2(频繁) I2,I5 2(频繁) I3,I4 0(去掉) I3,I5 1(去掉) I4,I5 0(去掉) - 继续求3-频繁集
项目 是否需要剪枝 I1,I2,I3 否 I1,I2,I5 否 I1,I3,I5 是(子集{I3,I5}不是频繁集) I2,I3,I4 是(子集{I3,I4}不是频繁集) I2,I3,I5 是(子集{I3,I5}不是频繁集) I2,I4,I5 是(子集{I4,I5}不是频繁集) 项目 次数 I1,I2,I3 2(频繁) I1,I2,I5 2(频繁) - 继续求4-频繁集
项目 是否需要剪枝 I1,I2,I3,I5 是(子集{I3,I5}不是频繁集) - 算法结束
频繁集为 { I 1 , I 2 , I 3 } , { I 1 , I 2 , I 5 } \{I1,I2,I3\},\{I1,I2,I5\} {I1,I2,I3},{I1,I2,I5}
- 先求1-频繁集,统计每个项目出现的次数
-
由频繁集产生关联规则
- 关联规则
对于一个集合,其存在的关联规则数量很多,我们需要寻找出置信度合适的关联规则;
对于集合{A,B,C},其存在的关联规则有: A ⇒ B ∧ C A\Rightarrow B \wedge C A⇒B∧C 等等 - 频繁集的所有子集
假定频繁集为{I1,I2,I5},其非空真子集为
{ I 1 , I 2 } , { I 2 , I 5 } , { I 1 , I 5 } , { I 1 } , { I 2 } , { I 5 } \{I1,I2\}, \{I2, I5\},\{I1, I5\},\{I1\},\{I2\},\{I5\} {I1,I2},{I2,I5},{I1,I5},{I1},{I2},{I5} - 关联规则
{ I 1 , I 2 } ⇒ { I 5 } { I 2 , I 5 } ⇒ { I 1 } { I 1 , I 5 } ⇒ { I 2 } { I 1 } ⇒ { I 2 , I 5 } { I 2 } ⇒ { I 1 , I 5 } { I 5 } ⇒ { I 1 , I 2 } \{I1,I2\}\Rightarrow\{I5\} \\ \{I2,I5\}\Rightarrow\{I1\} \\ \{I1,I5\}\Rightarrow\{I2\} \\ \{I1\}\Rightarrow\{I2,I5\} \\ \{I2\}\Rightarrow\{I1,I5\} \\ \{I5\}\Rightarrow\{I1,I2\} \\ {I1,I2}⇒{I5}{I2,I5}⇒{I1}{I1,I5}⇒{I2}{I1}⇒{I2,I5}{I2}⇒{I1,I5}{I5}⇒{I1,I2} - 计算对应的置信度
置 信 度 ( { I 1 ∧ I 2 } ⇒ { I 5 } ) = 2 / 4 置 信 度 ( { I 2 ∧ I 5 } ⇒ { I 1 } ) = 2 / 2 置 信 度 ( { I 1 ∧ I 5 } ⇒ { I 2 } ) = 2 / 2 置 信 度 ( { I 1 } ⇒ { I 2 ∧ I 5 } ) = 2 / 6 置 信 度 ( { I 2 } ⇒ { I 1 ∧ I 5 } ) = 2 / 7 置 信 度 ( { I 5 } ⇒ { I 1 ∧ I 2 } ) = 2 / 2 置信度(\{I1 \wedge I2\}\Rightarrow\{I5\} )=2/4\\ 置信度(\{I2 \wedge I5\}\Rightarrow\{I1\} )=2/2\\ 置信度(\{I1 \wedge I5\}\Rightarrow\{I2\} )=2/2\\ 置信度(\{I1\}\Rightarrow\{I2 \wedge I5\} )=2/6\\ 置信度(\{I2\}\Rightarrow\{I1 \wedge I5\} )=2/7\\ 置信度(\{I5\}\Rightarrow\{I1\wedge I2\} )=2/2\\ 置信度({I1∧I2}⇒{I5})=2/4置信度({I2∧I5}⇒{I1})=2/2置信度({I1∧I5}⇒{I2})=2/2置信度({I1}⇒{I2∧I5})=2/6置信度({I2}⇒{I1∧I5})=2/7置信度({I5}⇒{I1∧I2})=2/2 - 如果最小置信度阀值为70%,则只有第2、3和最后一个规则可以输出。
- 关联规则