基于海量数据的关联规则挖掘(三)

Apriori算法是1993年由Agrawal等人提出的一种挖掘关联规则的基本算法,它利用频繁项集的先验知识,通过两阶段挖掘事务数据库。首先,从数据中挖掘出频繁项集,包括频繁1-项集和更高阶的频繁项集。接着,基于这些频繁项集生成关联规则。然而,Apriori算法在处理大量数据时,候选频繁项集的生成和验证过程可能导致效率低下和高资源消耗。
摘要由CSDN通过智能技术生成
1.2Apriori 算法

        Apriori算法是挖掘关联规则的算法,是Agrawal等在1993年[1]设计的一个基本算法,其核心方法是基于频集理论的递推方法。这是一个采用两阶段频集的挖掘思想,并且基于多次扫描事务数据库来执行。正如算法名字,Apriori算法使用的是频繁项集性质的先验知识。

        Apriori算法的设计可以分解成两个步骤来执行挖掘:

        1、  从事务数据库中挖掘出所有频繁项集。

         首先挖掘出频繁1-项集。此时,在内存中保存两个表,一个保存每个项到一个整数的映射(如果项是其他非数值的对象),一个保存每个整数即项的计数。扫描整个数据集中的项,没扫描到一个项,在相应的位置计数器加一。最后根据支持度阈值筛选出支持度大于阈值的项组成

        在挖掘频繁2-项集

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值