频繁项集
Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。
性质一:如果一个项集是频繁的,则它的所有子集一定也是频繁的;
性质二:相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的;
这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝(support-based pruning)
这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为支持度度量的反单调性(anti-monotone)
过程
对候选项进行计数
比较与最小支持度的关系 不满足则删除
自链接和剪枝 产生候选项集 - 剪枝:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的;
上面的C3中没有{A,B,C}是因为{A,B}不为频繁项,所以子连接后要去除
相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的;
例子
关联规则
如果规则X -> Y-X不满足置信度阈值,则形如X -> Y-X的规则一定也不满足置信度阈值,其中X*是X的子集。