关联分析及其有关概念的介绍
关联分析:通过频繁项集或者关联规则来发现大数据集中元素之间有趣关系的一个工具集。关联分析的目标就是发现频繁项集和关联规则。
- 频繁项集:经常出现在一起的元素集合。
项集的支持度:数据集中包含该项集的记录所在的比例。 - 关联规则:暗示两元素之间可能存在很强的关系。
关联规则的可信度或者置信度:例如{尿布} -> {葡萄酒}这条关联规则的可信度被定义为“支持度({尿布,葡萄酒})/支持度({尿布})”
主要介绍下面两种算法:Apriori算法和FP-growth算法
Apriori原理:如果一个元素项集是不频繁的,那么包含该项集的超集也是不频繁的。(某个项集是频繁的,那么它的所有子集也是频繁的)
- Apriori算法从单元素项集开始,通过组合满足最小支持度要求的项集来形成更大的集合。每次增加频繁项集的大小,Apriori算法都会重新扫描整个数据集。
- FP-growth算法是一种用发现数据集中频繁模式的有效方法。只对数据集扫描两次。在第一次扫描的时候统计所有元素项出现的频率,第二遍扫描中只考虑那些频繁元素并构建一颗FP树,从FP树中抽取频繁项集。