【数据挖掘】笔记一-兴趣度度量&Apriori算法

最新推荐文章于 2022-09-20 22:20:23 发布

o0o_-_

最新推荐文章于 2022-09-20 22:20:23 发布

阅读量3.7k

点赞数 3

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33446100/article/details/101223982

版权

数据挖掘专栏收录该内容

9 篇文章 1 订阅

订阅专栏

兴趣度度量

概念
- 挖掘出的模式(规律的表示形式)的简洁性、确定性和实用性即为兴趣度度量。
简洁性度量
- 含义
  模式的便于人理解的度量
确定性度量
- 含义
  模式的有用性
- 方法
  对于关联规则，确定性度量使用置信度。
  设A和B为项目集合，A与B关联的规则A→B的置信度定义为
  $置信度(A→B)=\frac{同时包含A、B的元组}{包含A的元组数}$
- 例子
  下图置信度(A→B)=3/3
  - A B C D
  1 0 0 0 0
  2 1 1 0 0
  3 1 1 1 1
  4 1 1 1 0
实用性度量
- 含义
  模式的有用性
- 方法
  对于关联规则，实用性度量使用支持度。
  设A和B为项目集合，A与B关联的规则A→B的支持度定义为
  $支持度(A→B)=\frac{同时包含A、B的元组}{元组总数}$
- 例子
  下图支持度(A→B)=3/4
  - A B C D
  1 0 0 0 0
  2 1 1 0 0
  3 1 1 1 1
  4 1 1 1 0

关联规则算法-Apriori算法

频繁集
- 某个集合若存在不是频繁集的子集，那么该集合也不是频繁集；
- 若某个集合为频繁集，那么其所有非空子集均为频繁集。
连接步
- 为找Lk，通过Lk-1与自己连接产生候选k-项集的集合。该候选项集的集合记为Ck。设l1和l2是Lk-1中的项集。记号为li[j]表示li的第j项。为方便计，假定事务或项集中的项按字典次序排序。执行连接Lk-1∞Lk-1，其中Lk-1的元素是可连接的。连接L1项集和L2项集产生的结果是项集l1[1]l2[2]………l1[k-1]l2[k-1].
剪枝步
- Ck是Lk的超集；即是，它的成员可以是也可以不是频集，但所有的频集k-项集都包含在Ck中。扫描数据库，确定Ck中每个候选的计数，从而确定Lk。然而，Ck可能很大，这样所涉及的计算量就很大。为压缩Ck，可以利用以下办法使用Apriori性质：任何非频集的（k-1）-项集都不可能是频繁k-项集的子集。因此，如果一个候选k-项集的(k-1)-子集不在Lk-1中，则该候选也不可能是频繁的，从而可以有Ck中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。

频繁集求法

TID	项目
$T10	I1,I2,I5
$T20	I2,I4
$T30	I2,I3
$T40	I1,I2,I4
$T50	I1,I3
$T60	I2,I3
$T70	I1,I3
$T80	I1,I2,I3,I5
$T90	I1,I2,I3

先求1-频繁集，统计每个项目出现的次数
假定最小支持事务支持数为2，由下表可以得出1-频繁集为{I1,I2,I3,I4,I5}

项目	次数
I1	6（频繁）
I2	7（频繁）
I3	6（频繁）
I4	2（频繁）
I5	2 （频繁）

由1-频繁集求出2-频繁集
在1-频繁集中任取2个组成集合，统计在原事务集合中出现的次数；例如{I1,I2}，则须统计事务中同时出现项目I1, I2的数目

项目	次数
I1,I2	4（频繁）
I1,I3	4（频繁）
I1,I4	1（去掉）
I1,I5	2（频繁）
I2,I3	4（频繁）
I2,I4	2（频繁）
I2,I5	2（频繁）
I3,I4	0（去掉）
I3,I5	1（去掉）
I4,I5	0（去掉）

继续求3-频繁集

项目	是否需要剪枝
I1,I2,I3	否
I1,I2,I5	否
I1,I3,I5	是（子集{I3,I5}不是频繁集）
I2,I3,I4	是（子集{I3,I4}不是频繁集）
I2,I3,I5	是（子集{I3,I5}不是频繁集）
I2,I4,I5	是（子集{I4,I5}不是频繁集）

项目	次数
I1,I2,I3	2（频繁）
I1,I2,I5	2（频繁）

继续求4-频繁集

项目	是否需要剪枝
I1,I2,I3,I5	是（子集{I3,I5}不是频繁集）

算法结束
频繁集为 ${I1,I2,I3\}，\{I1,I2,I5\}$

由频繁集产生关联规则
- 关联规则
  对于一个集合，其存在的关联规则数量很多，我们需要寻找出置信度合适的关联规则；
  对于集合{A,B,C}，其存在的关联规则有： $A\Rightarrow B \wedge C$ 等等
- 频繁集的所有子集
  假定频繁集为{I1,I2,I5}，其非空真子集为
  ${I1,I2\}， \{I2, I5\}，\{I1, I5\}，\{I1\}，\{I2\}，\{I5\}$
- 关联规则
  $\{I1,I2\}\Rightarrow\{I5\} \\ \{I2,I5\}\Rightarrow\{I1\} \\ \{I1,I5\}\Rightarrow\{I2\} \\ \{I1\}\Rightarrow\{I2,I5\} \\ \{I2\}\Rightarrow\{I1,I5\} \\ \{I5\}\Rightarrow\{I1,I2\} \\$
- 计算对应的置信度
  $置信度(\{I1 \wedge I2\}\Rightarrow\{I5\} )=2/4\\ 置信度(\{I2 \wedge I5\}\Rightarrow\{I1\} )=2/2\\ 置信度(\{I1 \wedge I5\}\Rightarrow\{I2\} )=2/2\\ 置信度(\{I1\}\Rightarrow\{I2 \wedge I5\} )=2/6\\ 置信度(\{I2\}\Rightarrow\{I1 \wedge I5\} )=2/7\\ 置信度(\{I5\}\Rightarrow\{I1\wedge I2\} )=2/2\\$
- 如果最小置信度阀值为70%，则只有第2、3和最后一个规则可以输出。

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘】笔记一-兴趣度度量&Apriori算法

兴趣度度量概念挖掘出的模式(规律的表示形式)的简洁性、确定性和实用性即为兴趣度度量。简洁性度量确定性度量含义模式的有用性方法对于关联规则，确定性度量使用置信度。设A和B为项目集合，A与B关联的规则A→B的置信度定义为置信度(A→B)=同时包含A、B的元组包含A的元组数置信度(A→B)=\frac{同时包含A、B的元组}{包含A的元组数}置信度(A→B)=包...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。