数据挖掘中的模式发现(五)挖掘多样频繁模式

挖掘多层次的关联规则(Mining Multi-Level Associations)

定义

项经常形成层次。

如图所示

图一

那么我们可以根据项的细化分类得到更多有趣的模式,发现更多细节的特性。

Level-reduced min-support

使用的是Level-reduced min-support方法来设置最低支持度,即,越低的层有着越低的支持度。

假设我们使用的是统一的最低支持度,那么如果支持度过低,低层的频繁项集就会较少,导致很多特性显示不出来;如果支持度过高,高层的频繁项集就过多,导致过多无用的特性被展示出来。

group-based “individualized” min-support

不同种类的物品对应的最低支持度应该是不同的,比如钻石等贵重物品出现的频率肯定是低于牛奶面包等日常用品的。

所以应该分组设置最低支持度。

Shared multi-level mining

使用最低层次的支持度来计算和传递候选集。也就是使用的是所有层中支持度最小的。

因为这样可以保证挖掘出的关联规则不会减少。

冗余规则(redundant rules)

挖掘多层关联规则时,由于项之间的“父子”关系,有些发现的规则是冗余的。

例如

已知, 14 的milk销售的是2%milk。

milkwheatbread [support = 8%, confidence = 70%]
2%milkwheatbread [support = 2%, confidence = 72%]

我们可以发现,第一个规则是第二个规则的祖先。而我们可以根据第一个规则的值以及比例放缩,计算出第二个规则的期望。而如果一个规则的支持度和置信度都接近“期望值”,那么我们称之为冗余规则。

挖掘多维度的关联规则(Mining Multi-Dimensional Associations)

  • 单维规则:
    • buys(X,"milk")buys(X,"bread")
    • 可写成形如 milkbread 的boolean关联规则
  • 多维规则:2维 或者 断言
    • 维间关联规则 (no repeated predicates)
      • age(X,"1925")occupation(X,"student")buys(X,"coke")
    • 混合维关联规则 (repeated predicates)
      • age(X,"1925")buy
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值