基于海量数据的关联规则挖掘（十）

最新推荐文章于 2023-07-04 17:48:13 发布

chenhengcs

最新推荐文章于 2023-07-04 17:48:13 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/glorychen1/article/details/18218555

版权

本文介绍了处理海量数据关联规则挖掘的一种基于划分的方法，特别是Savasere, Omiecinski, and Navathe（SON）算法。SON算法通过数据块划分避免了假阴性和假阳性的错误，并且在并行计算环境下，特别是与MapReduce结合，能有效提高处理效率。文章详细阐述了算法的两个步骤，并展示了如何将其转化为map-reduce任务。" 105667430,7796230,Canal连接RDS MySQL Binlog问题排查与解决,"['mysql', 'rds', 'binlog同步']

摘要由CSDN通过智能技术生成

2.3基于划分的方法

使用划分的方法是处理海量数据的管理规则的另一个有效的方法。不同于基于采样的方法，该方法能够对数据集上所有数据进行处理。

Savasere,Omiecinski, and Navathe算法[2]

我们的下一个算法同时避免了false negatives和false positives，所带来的代价是需要两个完全的步骤。该算法叫做SON算法，为三个作者名字的简称。其思想是将输入文件划分成块(chunks)。将每个文件块作为一个样本，并执行Apriori算法在其块上。同样的使用ps作为其阈值。将每个块找到的频繁项集放到磁盘上。

一旦所有的块按此方式被处理，将那些在一个或多个块中被选中的频繁项集收集起来作为候选频繁项集。注意，如果一个项集在所有的块中都不是频繁项集，即它在每个块中的支持度都低于ps。因为块数位1/p，所以，整体的支持度也就低于(1/p)ps=s。这样，每个频繁项集必然会出现在至少一个块的频繁项集中，于是，我们可以确定，真正的频繁项一定全在候选频繁项集中，因此这里没有false negatives。

当我们读每个块并处理它们后，我们完成一次处理。在第二步处理中，我们计算所有的候选频繁项集，选择那些支持度至少为s的作为频繁项集。