Apriori算法和FP-growth算法比较

关联分析可以用于回答“哪些商品经常被同时购买?”之类的问题
关联分析是在大规模数据集中寻找有趣关系的任务,这些关系可以有两种形式:
频繁项集:是经常出现在一块儿的物品的集合

关联规则:按时两种物品之间可能存在很强的关系。

支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小值尺度的项集。
可信度或者是置信度是针对关联规则来定义的,我们的规则对其中多少的记录都适用

Apriori算法是发现频繁项集的一种方法,Apriori算法的两个输入参数分别是最小支持度和数据集,该算法首先会生成所有单个元素的项集列表。接着扫描数据集来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉,然后,对剩下来的集合进行组合以生成包含两个元素的项集,接下来,再重新扫描交易记录,去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被去掉。


经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。apriori算法多次扫描交易数据库,每次利用候选频繁集产生频繁集;而FP-growth则利用树形结构,无需产生候选频繁集而是直接得到频繁集,大大减少扫描交易数据库的次数,从而提高了算法的效率。但是apriori的算法扩展性较好,可以用于并行计算等领域。

使用Apriori算法进行关联分析。FP-growth算法来高效发现频繁项集。

  • 4
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Apriori算法FP-Growth算法都是用于频繁项集挖掘的经典算法,它们都可以用来发现数据集中的频繁项集。 Apriori算法的基本思想是利用集合的逐层包含关系,从而发现频繁项集。该算法首先扫描数据集,计算出所有项的支持度,然后利用支持度和最小支持度阈值剪枝,得到一组频繁1项集。然后,利用频繁1项集生成所有频繁2项集,再用频繁2项集生成频繁3项集,依次类推,直到不能再生成更多的频繁项集为止。 FP-Growth算法则是一种基于树形结构的频繁项集挖掘算法。该算法首先构建一个称为FP树的数据结构,并将所有事务按照频繁项的顺序插入到FP树中。然后,利用FP树的结构和头指针表,快速地发现所有的频繁项集。与Apriori算法不同的是,FP-Growth算法不需要生成候选项集,因此可以大大减少算法的时间和空间复杂度。 相比之下,FP-Growth算法具有以下优点: 1. FP-Growth算法不需要生成候选项集,因此可以大大减少算法的时间和空间复杂度。 2. FP-Growth算法使用FP树来存储数据,可以更方便地处理数据集中的频繁项集。 3. FP-Growth算法可以处理更大规模的数据集。 但是,由于FP-Growth算法需要构建FP树,因此在处理稀疏数据集时,其效率会下降。而Apriori算法则可以更好地处理稀疏数据集。因此,在实际应用中,我们需要根据具体的问题和数据集的特点来选择合适的算法
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值