数据挖掘十大算法之Apriori详解

在2006年12月召开的 IEEE 数据挖掘国际会议上(ICDM, International Conference on Data Mining),与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),可以参见文献【1】。本博客已经介绍过的位列十大算法之中的算法包括:

  • [1] k-means算法(http://blog.csdn.net/baimafujinji/article/details/50570824)
  • [2] 支持向量机SVM(http://blog.csdn.net/baimafujinji/article/details/49885481)
  • [3] EM算法(http://blog.csdn.net/baimafujinji/article/details/50626088)
  • [4] 朴素贝叶斯算法(http://blog.csdn.net/baimafujinji/article/details/50441927)
  • [5] k k k
  • 88
    点赞
  • 317
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 26
    评论
Apriori算法是一种常见的关联规则挖掘算法,用于发现数据集中项集之间的关联关系。Apriori算法基于频繁项集的概念,即在数据集中经常出现的项集。该算法首先生成所有可能的项集,然后通过剪枝来移除不频繁的项集,最终得到频繁项集。 Apriori算法的核心思想是利用“先验知识”(即Apriori原理)来减少候选项集的数量。Apriori原理指的是,如果一个项集是频繁的,则它的所有子集也一定是频繁的。因此,在执行Apriori算法时,我们只需要考虑频繁项集,而不需要考虑非频繁项集。这样就可以减少候选项集的数量,从而提高算法的效率。 Apriori算法的步骤如下: 1. 扫描数据集,计算每个项的支持度(即在数据集中出现的次数)。 2. 根据最小支持度阈值,生成频繁1项集。 3. 基于频繁1项集,生成候选2项集。 4. 扫描数据集,计算候选2项集的支持度,并根据最小支持度阈值筛选出频繁2项集。 5. 基于频繁2项集,生成候选3项集。 6. 重复步骤4和5,直到无法生成新的频繁项集为止。 Apriori算法的优点是简单易懂,实现较为容易。但是,它的缺点也比较明显,即在处理大规模数据集时,需要枚举所有可能的项集,导致计算复杂度较高。同时,由于候选项集的数量会随着项集大小的增加而指数级增长,因此算法的效率会随着项集大小的增加而降低。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 26
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白马负金羁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值