频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以用关联规则表示如何判断模式是否频繁,有两个基本的度量:
支持度(support):该模式在所有被考察的对象中的占比,表示了该模式(规则)的有用性;
置信度(cofidence):由规则的前因推出后果的可信度,表示了规则的确定性;
设规则为A->B,则支持度和置信度可以表示如下:
support(A->B) = P(AUB)
confidence(A->B) = P(A|B)
根据上面的定义,可以得出挖掘关联规则(A->B)的问题可以归结为挖掘频繁项集(因为这里的概率运算都可以用满足条件的项的出现次数和总个数的比表示):
1. 找出所有的频繁项集;