非频繁模式
非频繁模式,是一个项集或规则,其支持度小于阈值minsup.
绝大部分的频繁模式不是令人感兴趣的,但其中有些分析是有用的,特别是涉及到数据中的负相关时,如一起购买DVD的顾客多半不会购买VCR,反之亦然,这种负相关模式有助于识别竞争项(competing item),即可以相互替代的项。
某些非频繁模式也可能暗示数据中出现了某些罕见事件或例外情况。如,如果{火灾=yes}是频繁的,但是{火灾=yes,警报=on}是非频繁的,则后者是有趣的非频繁模式,因为可能指出报警系统出问题,为了检测这种情况,可以确定模式的期望支持度,当模式支持度小于期望支持度时,表明其实一个有趣的非频繁模式。
挖掘非频繁模式的主要问题是:
1. 如何识别有趣的非频繁模式。
2. 如何在大数据集中有效地发现它们。
负模式
设 I=i1,i2,⋯,id 是项的集合。负项 ik¯ 表示项 ik 不在给定事务中出现。如事务不包含咖啡,则 咖啡¯ 是一个值为1的负项。
负项集,负项集X是一个具有如下性质的项集:(1) X=A∪B¯ ,其中A是正项的集合,而 B¯ 是负项的集合, |B¯|≥1 ;(2) s(X)≥minsup 。
负关联规则,(1)规则是从负项集中提取的,(2)规则支持度大于或等于minsup,(3)规则的置信度大于或等于minconf。
负项集和负关联规则称为负模式(negative pattern)。负关联规则的一个例子是 茶→咖啡¯ 。
负相关模式
用 X=x1,x2,⋯,xk 表示k-项集,P(X)表示事务包含X的概率。在关联分析中,这个概率通常用项集的支持度s(X)估计。
负相关项集 项集X是负相关的,如果