挖掘频繁模、关联和相关性(3)

模式评估方法

强规则不一定是有趣的

这里写图片描述

上面的例子虽然是强规则,然而,是一种规则误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。

从关联分析到相关分析

支持度和置信度度量不足以过滤掉无趣的关联规则。为了处理这个问题,可以使用相关性度量来扩充关联规则的支持度-置信度框架。这导致如下形式的相关规则(correlation rule)

AB[support,confidence,correlation]

也就是说,相关规则不仅用支持度和置信度度量,而且还用项集A和B之间的相关性度量。

提升度:项集A的出现独立于项集B的出现,如果 P(AB)=P(A)P(B) ;否则,作为事件,项集A和B是依赖的(dependent)和相关的(correlated).

lift(A,B)=P(AB)P(A)P(B)=P(BA)P(B)=conf(AB)sup(B)

如果上式值小于1,则A的出现与B的出现是负相关的,如果大于1是正相关的,如果等于1,他们之间是独立的。

χ2 进行相关分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值