关联规则:X->Y 用于表示数据内部隐含的关联性。X称为先导(antecedent或left-hand-side, LHS),Y称为后继(consequent或right-hand-side, RHS)。
支持度:关联规则的支持度support,指的是事件X和事件Y同时发生的概率,支持度越大表明XY两者同时出现越频繁。
support(X->Y) = support(Y->X) = P(XY)
置信度:关联规则的置信度confidence,指的是发生事件X的基础上事件Y也同时发生的概率。
confidence(X->Y) = P(Y|X) = P(XY)/P(X)
confidence(Y->X) = P(X|Y) = P(XY)/P(Y)
强规则:同时满足最小支持度阈值α和最小置信度阈值β的规则称为强规则,最小支持度阈值α和最小置信度阈值β可以自己设定。
频繁k项集:如果事件X中包含k个元素,那么称这个事件X为k项集,并且事件X满足最小支持度阈值的事件称为频繁k项集。