分布式并行关联规则挖掘

  经典的关联规则挖掘算法Apriori和FP-growth,在大数据或者海量数据面前,由于候选集和生成的FP树大而无法存储到内存,同时也由于算法本身单机的特点,决定了它串行处理数据的方式,这在效率上很难满足大数据处理的要求,数据迁移到平台需要传输和转储,在大数据面前,也是一大难题。

  一般而言"关联规则的挖掘过程分为两步
  1 找出所有的频繁项集,根据定义这些项集的每一个频繁出现次数至少与预定义的最小支持度计数
  2 由频繁项集产生强关联规则。这些规则必须满足最小支持度和最小置信度。
  由于第二步的开销远低于第一步,挖掘关联规则的总体性能由第一步决定,因此重点研究产生频繁项集的过程。

  已有的学者再分布并行处理方面做得改进:

  1 数据划分思想

  2 多线程内存共享

  3 FP子树的分布并行处理

  4 条件模式基的并行分布挖掘

  5 采用多个局部FP树代替全局FP(二者是等价的,为了便于分布到各个Map上)

  待续。

转载于:https://www.cnblogs.com/XiaoErDuoFancy/p/5832810.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值