Apriori算法是关联规则挖掘的代表性算法,十大数据挖掘算法之一,可见其重要性。它的主要作用是发现事物之间的内在联系。
Apriori算法的基本思想是通过对数据的多次扫描来计算项集的支持度,发现所有的频繁项集从而生成关联规则。
案例:
求最小支持度计数为2的候选项集及频繁项集。
第一次扫描: (左边为C1,右边为L1)
第二次扫描:(左边为C2,右边为L2)
去掉最小支持度小于2的项。
L2自身连接:(如果看得出下一步结果,这一步以及剪枝可以省略,直接进行第三次扫描)
剪枝得到:(剪枝规则是将自身连接得到的C2,将次数小于最小支持度2的剪掉)
第三次扫描:(左边为C3,右边为L3)
得到最终结果。