数据挖掘十大算法 —— Apriori
---
Apriori 算法是数据挖掘中用来挖掘关联规则的基本算法,我们所熟知“ 婴儿尿布和啤酒”的经典关联规则就是这样被挖掘出来的。先介绍一些基本概念:
- 支持度 Support
- 置信度 Confidence
- 频繁项集 Frequent item set
- 强规则
关于 Apriori 的整体流程,可以用过张图很好的解释(图是盗的),数据库中序号为 1, 2, 3, 4 代表着不同事务,每个事务包含的不同商品,其中每个 A,B,C,D,E 称之为项。步骤也是迭代的,首先找出候选 1 项集,然后“剪枝”除去支持度低于最小支持度的项集,得到频繁 1 项集,再“连接”得到候选 2 项集;重复“剪枝”“连接”,得到最后的一个最大的频繁项集,就是我们需要找的最大频繁项集。
综上所述, Apriori 算法的特点就是简单迭代,缺点也是显而易见的:
1 在进行“连接”操作时,会产生巨大的候选项集。
2 在进行“剪枝”的时候需要对整个数据库进行扫描,当数据量大的时候很耗时。
网上留存的也有许多对于 Apriori 算法的改进,如基于划分的方法,基于 hash 的方法,减少交易个数 等,都值得进一步去研究,本文最为基础入门的介绍,也到此为止了。
-----------------
【参考】