频繁项集挖掘以及关联规则的基本概念

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:

   1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。

   2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。

  过程:

  1)自然连接获取候选集

一.几个基本概念

1.支持度计数:即包含含特定项集的事务个数。

2.支持度:

计算方式:对于关联规则X–>Y,s=support(X∪Y)/N,其中,N为事务的个数,support(X∪Y)为项集{X,Y}的支持度计数。

3.置信度:对于关联规则X–>Y,c=support(X∪Y)/support(X)。

4.为什么要使用支持度和置信度?

支持度:是一种重要度量,因为支持度很低的规则可能只是偶然出现。因此,支持度通常用来删去那些毫无意义的规则。

置信度:对于给定的规则X–>Y,置信度越高,Y在包含X的事务中出现的可能性就越大。

注意:由关联规则作出的推论并不必然蕴含因果关系,它只表示前件和后件中的项明显地同时出现。

二.Apriori算法的思想

大多数的关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个子任务:

1.频繁项集的产生:何为频繁项集?即目标满足支持度大于等于最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset).

2.规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这项规则称作强规则。何为强规则?即同时满足最小支持度阈值又满足最小置信度的规则,称作强关联规则。

三.Apriori算法的频繁项集产生

   两个原理:

   1)先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的。

   2)反单调性:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。

  过程:

  1)自然连接获取候选集

在这里插入图片描述

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。



  简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

  2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。



  简单的讲,1、发现频繁项集,过程为:(1)扫描事务(2)计算计数(3)与阈值比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集。

算法:频繁项集的产生

四.由频繁项集产生关联规则

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值