数据挖掘(Apriori)_追逐梦想的顾咏丰_新浪博客

数据挖掘十大算法 —— Apriori
---
Apriori 算法是数据挖掘中用来挖掘关联规则的基本算法,我们所熟知“ 婴儿尿布和啤酒”的经典关联规则就是这样被挖掘出来的。先介绍一些基本概念:

  • 支持度 Support
  • 置信度 Confidence
  • 频繁项集 Frequent item set
  • 强规则 

关于 Apriori 的整体流程,可以用过张图很好的解释(图是盗的),数据库中序号为 1, 2, 3, 4 代表着不同事务,每个事务包含的不同商品,其中每个 A,B,C,D,E 称之为项。步骤也是迭代的,首先找出候选 1 项集,然后“剪枝”除去支持度低于最小支持度的项集,得到频繁 1 项集,再“连接”得到候选 2 项集;重复“剪枝”“连接”,得到最后的一个最大的频繁项集,就是我们需要找的最大频繁项集。

数据挖掘(Apriori)


综上所述, Apriori 算法的特点就是简单迭代,缺点也是显而易见的:

1  在进行“连接”操作时,会产生巨大的候选项集。
2  在进行“剪枝”的时候需要对整个数据库进行扫描,当数据量大的时候很耗时。

网上留存的也有许多对于 Apriori 算法的改进,如基于划分的方法,基于 hash 的方法,减少交易个数 等,都值得进一步去研究,本文最为基础入门的介绍,也到此为止了。

-----------------
【参考】
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值