数据挖掘-关联规则挖掘之Apriori算法

目录

一、定义

二、Apriori定律

Apriori定律1):

Apriori定律2):

三、Apriori算法工作原理:

四、Apriori算法特点: 


一、定义

Apriori是由a priori合并而来的,它的意思是后面的是在前面的基础上推出来的,即先验推导,怎么个先验法,其实就是二级频繁项集是在一级频繁项集的基础上产生的,三级频繁项集是在二级频繁项集的基础上产生的,以此类推。

Apriori是寻找频繁项集的常用算法。

二、Apriori定律

Apriori定律1):

如果一个集合是频繁项集,则它的所有子集都是频繁项集。举例:假设一个集合{A,B}是频繁项集,即A、B同时出现在一条记录的次数大于等于最小支持度min_support,则它的子集{A},{B}出现次数必定大于等于min_support,即它的子集都是频繁项集。

Apriori定律2):

如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。举例:假设集合{A}不是频繁项集,即A出现的次数小于min_support,则它的任何超集如{A,B}出现的次数必定小于min_support,因此其超集必定也不是频繁项集。

三、Apriori算法工作原理:

给出初始表

下面为Apriori算法的工作原理:

 

四、Apriori算法特点: 

1、多次扫描数据库;

2、候选项规模庞大;

3、计算支持度开销大。

Apriori算法缺点在于,需要反复的生成候选项,如果项的数目比较大,候选项的数目将达到组合爆炸式的增长。

针对于此,另一种发现频繁项集的算法:FP-Growth算法,可以避开这个缺点。

Apriori算法利用先验原理逐步减少候选集的数量,FP-Growth算法则利用先验原理和生成FP-Tree相结合来减少比较的次数。

FP-Growth算法的平均效率远高于Apriori算法。

在此不进行展开讲述。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值