模式评估方法
强规则不一定是有趣的
上面的例子虽然是强规则,然而,是一种规则误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。
从关联分析到相关分析
支持度和置信度度量不足以过滤掉无趣的关联规则。为了处理这个问题,可以使用相关性度量来扩充关联规则的支持度-置信度框架。这导致如下形式的相关规则(correlation rule)
A⇒B[support,confidence,correlation]
也就是说,相关规则不仅用支持度和置信度度量,而且还用项集A和B之间的相关性度量。
提升度:项集A的出现独立于项集B的出现,如果 P(A⋃B)=P(A)P(B) ;否则,作为事件,项集A和B是依赖的(dependent)和相关的(correlated).
lift(A,B)=P(A⋃B)P(A)P(B)=P(B∣A)P(B)=conf(A⇒B)sup(B)
如果上式值小于1,则A的出现与B的出现是负相关的,如果大于1是正相关的,如果等于1,他们之间是独立的。
χ2 进行相关分析