基于海量数据的关联规则挖掘（十一）

chenhengcs

于 2014-01-13 12:23:49 发布

阅读量724

点赞数 1

本文链接：https://blog.csdn.net/glorychen1/article/details/18218567

版权

3其他的频集挖掘方法

上面我们介绍的都是基于Apriori的频集方法。即使进行了优化，但是Apriori方法一些固有的缺陷还是无法克服：

可能产生大量的候选集。当长度为1的频集有10000个的时候，长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候，要产生的中间元素也是巨大量的。
无法对稀有信息进行分析。由于频集使用了参数minsup，所以就无法对小于minsup的事件进行分析；而如果将minsup设成一个很低的值，那么算法的效率就成了一个很难处理的问题。

下面将介绍两种方法，分别用于解决以上两个问题。

针对问题一，J.Han等在[5]中提出了不产生候选挖掘频繁项集的方法：FP-树频集算法。他们采用了分而治之的策略，在经过了第一次的扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同时依然保留其中的关联信息。随后我们再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关。然后再对这些条件库分别进行挖掘。当原始数据量很大的时候，也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明，FP-growth对不同长度的规则都有很好的适应性，同时在效率上较之apriori算法有巨大的提高。

第二个问题是基于这个的一个想法：apriori算法得出的关系都是频繁出现的，但是在实际的应用中，我们可能需要寻找一些高度相关的元素，即使这些元素不是频繁出现的。在apriori算法中，起决定作用的是支持度，而我们现在将把可信度放在第一位，挖掘一些具有非常高可信度的规则。Edith Cohen在[6]中介绍了对于这个问题的一个解决方法。整个算法基本上分成三个步骤：计算特征、生成候选集、过滤候选集。在三个步骤中，关键的地方就是在计算特征时Hash方法的使用。在考虑方法的时候，有几个衡量好坏的指数：时空效率、错误率和遗漏率。基本的方法有两类：Min_Hashing(MH)和Locality_Sensitive_Hashing(LSH)。Min_Hashing的基本想法是：将一条记录中的头k个为1的字段的位置作为一个Hash函数。Locality_Sentitive_Hashing的基本想法是：将整个数据库用一种基于概率的方法进行分类，使得相似的列在一起的可能性更大，不相似的列在一起的可能性较小。我们再对这两个方法比较一下。MH的遗漏率为零，错误率可以由k严格控制，但是时空效率相对的较差。LSH的遗漏率和错误率是无法同时降低的，但是它的时空效率却相对的好很多。所以应该视具体的情况而定。最后的实验数据也说明这种方法的确能产生一些有用的规则。

chenhengcs

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于海量数据的关联规则挖掘（十一）

3其他的频集挖掘方法上面我们介绍的都是基于Apriori的频集方法。即使进行了优化，但是Apriori方法一些固有的缺陷还是无法克服：可能产生大量的候选集。当长度为1的频集有10000个的时候，长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候，要产生的中间元素也是巨大量的。无法对稀有信息进行分析。由于频集使用了参数minsup，所以就无法对小于minsup
复制链接

扫一扫