频繁项集的产生及经典算法

前言:

  关联规则是数据挖掘中最活跃的研究方法之一, 是指搜索业务系统中的所有细节或事务,找出所有能把一 组事件或数据项与另一组事件或数据项联系起来的规则,以获 得存在于数据库中的不为人知的或不能确定的信息,它侧重于确 定数据中不同领域之间的联系,也是在无指导学习系统中挖掘本地模式的最普通形式。
  一般来说,关联规则挖掘是指从一个大型的数据集(Dataset)发现有趣的关 联(Association)或相关关系(Correlation),即从数据集中识别出频繁 出现的属性值集(Sets of Attribute Values),也称为频繁项集 (Frequent Itemsets,频繁集),然后利用这些频繁项集创建描述关联关系的规则的过程。

关联规则挖掘问题:

  发现频繁项集:现所有的频繁项集是形成关联规则的基础。通过用户给定的最 小支持度,寻找所有支持度大于或等于Minsupport的频繁项集。
  生成关联规则:通过用户给定的最小可信度,在每个最大频繁项集中,寻找可信度不小于Minconfidence的关联规则.
  如何迅速高效地发现所有频繁项集,是关联规则挖掘的核心问题,也是衡量关联规则挖掘算法效率的重要标准。
  经典的挖掘完全频繁项集方法是查找频繁项集集合的全集。其中包括基于广度优先算法搜索的 关联规则算法--Apriori算法(通过多次迭代找出所有的频繁项集)及DHP(Direct Hashing Pruning) 算法等改进算法;基于深度优先搜索策略的FP-Growth算法,ECLAT算法,COFI算法等, 我将介绍两种经典算法--Apriori算法和FP-Growth算法。

1.Apriori算法

  Apriori算法基于频繁项集性质的先验知识,使用由下至上逐层搜索的迭代方法, 即从频繁1项集开始,采用频繁k项集搜索频繁k+1项集,直到不能找到包含更多项的频繁项集为止。
  Apriori算法由以下步骤组成,其中的核心步骤是连接步和剪枝步:

Apriori算法由以下步骤组成,其中的核心步骤是连接步和剪枝步

  (1)生成频繁1项集L1。
  (2)连接步:为了寻找频繁k项集 ,首先生成一个潜在频繁k项集构成的候选项集 , 中的每一个项集是由两个只有一项不同的属于 的频繁项集做k-2连接运算得到的。连接方法为:设l1和l2是 中的项集,即 ,如果l1和l2中的前k-2个元素相同,则称l1和l2是可连接的,用 表示。假定事务数据库中的项均按照字典顺序排列,li[j]表示li中的第j项,则连接l1和l2的结果项集是 。
  (3)剪枝步:连接步生成的Ck是Lk的超集,包含所有的频繁项集Lk,同时也可能包含一些非频繁项集。可以利用前述先验知识(定理3.2),进行剪枝以压缩数据规模。比如,如果候选k项集Ck的k-1项子集不在Lk-1中,那么该子集不可能是频繁项集,可以直接删除。
  (4)生成频繁k项集Lk:扫描事务数据库D,计算Ck中每个项集的支持度,去除不满足最小支持度的项集,得到频繁k项集Lk。
  (5)重复步骤(2)~(4),直到不能产生新的频繁项集的集合为止,算法中止。

Apriori算法是一种基于水平数据分布的、宽度优先的算法,由于 使用了层次搜索策略和剪枝技术,使得Apriori算法在挖掘频繁模式时具 有较高的效率。但是,Apriori算法也有两个致命的性能瓶颈:

  (1)Apriori算法是一个多趟搜索算法,每次搜索都要扫描事务数据库,I/O开销巨大。对于候选k项集Ck来说,必须扫描其中的每个元素以确认是否加入频繁k项集Lk,若候选k项集Ck中包含n项,则至少需要扫描事务数据库n次。
  (2)可能产生庞大的候选项集。由于针对频繁项集Lk-1的k-2连接运算,由Lk-1 产生的候选k项集Ck是呈指数增长的,如此海量的候选集对于计算机的运算时间和 存储空间都是巨大的挑战。
交易 商品代码
  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值