数据挖掘之关联分析七(非频繁模式)

非频繁模式

非频繁模式,是一个项集或规则,其支持度小于阈值minsup.
绝大部分的频繁模式不是令人感兴趣的,但其中有些分析是有用的,特别是涉及到数据中的负相关时,如一起购买DVD的顾客多半不会购买VCR,反之亦然,这种负相关模式有助于识别竞争项(competing item),即可以相互替代的项。

某些非频繁模式也可能暗示数据中出现了某些罕见事件或例外情况。如,如果{火灾=yes}是频繁的,但是{火灾=yes,警报=on}是非频繁的,则后者是有趣的非频繁模式,因为可能指出报警系统出问题,为了检测这种情况,可以确定模式的期望支持度,当模式支持度小于期望支持度时,表明其实一个有趣的非频繁模式。

挖掘非频繁模式的主要问题是:
1. 如何识别有趣的非频繁模式。
2. 如何在大数据集中有效地发现它们。

负模式

I=i1,i2,,id 是项的集合。负项 ik¯ 表示项 ik 不在给定事务中出现。如事务不包含咖啡,则 ¯ 是一个值为1的负项。

负项集,负项集X是一个具有如下性质的项集:(1) X=AB¯ ,其中A是正项的集合,而 B¯ 是负项的集合, |B¯|1 ;(2) s(X)minsup

负关联规则,(1)规则是从负项集中提取的,(2)规则支持度大于或等于minsup,(3)规则的置信度大于或等于minconf。

负项集和负关联规则称为负模式(negative pattern)。负关联规则的一个例子是 ¯

负相关模式

X=x1,x2,,xk 表示k-项集,P(X)表示事务包含X的概率。在关联分析中,这个概率通常用项集的支持度s(X)估计。

负相关项集 项集X是负相关的,如果

s(X)<j=1ks(xj)=s(x1)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值