![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
频繁项集挖掘
文章平均质量分 88
my_learning_road
这个作者很懒,什么都没留下…
展开
-
频繁项集挖掘算法——Apriori算法
前言 关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系。其中“频繁”是由人为设定的一个阈值即支持度 (support)来衡量,“紧密”也是由人为设定的一个关联阈值即置信度(confidence)来衡量的。这两种度量标准是频繁项集挖掘中两个至关重 要的因素,也是挖掘算法的关键所在。对项集支持度和规则置信度的计算是影响挖掘算法效率的决定性因素,也是对频繁项集挖掘进行改...原创 2018-03-28 13:42:38 · 25218 阅读 · 3 评论 -
频繁项集挖掘算法——FP-growth算法
上一篇我们介绍了Apriori算法,但是我们可以分析得出,Apriori算法可能收到两种非平凡开销的影响:它可能需要产生大量候选项集;它可能需要重复的扫描整个数据库,通过模式匹配检查一个很大的候选集合。检查数据库中每个事务来确定候选项集支持度的开销很大。 是否可以设计一种方法,挖掘全部频繁项集而无须这种代价昂贵的候选产生过程?一种试图这样做的方法称为频繁模式增长(Fr...原创 2018-03-28 14:42:33 · 16010 阅读 · 0 评论 -
频繁项集挖掘算法——Eclat算法
前面介绍过的Apriori算法和FP-growth算法都是从TID项集格式(即{TID:itemset})的事务集中挖掘频繁模式,其中TID是事务标识符,而itemset是事务TID中购买的商品。这种数据格式称为水平数据格式。或者,数据也可以用项-TID集格式(即{item:TID_set})表示,其中item是项的名称,而TIDb_set是包含item的事务的标识符集合。这种格式...原创 2018-03-28 19:22:45 · 15679 阅读 · 0 评论 -
频繁项集挖掘算法——Relim算法
前面我们已经介绍了3中频繁项集挖掘算法,今天我们来介绍一种新的不需要候选项集的频繁项集挖掘算法——Relim算法。 FP-growth算法是当前挖掘频繁项集算法中速度最快,应用最广,并且不需要候选项集的一种频繁项集挖掘算法,但是FP-growth也存在着算法结构复杂和空间利用率低等缺点。Relim算法是在FP-growth算法的基础上提出的一种新的不需要候选项集的频繁...原创 2018-03-29 10:22:56 · 6645 阅读 · 2 评论 -
频繁项集挖掘算法——H-mine算法
前面我们已经介绍了4种频繁项集挖掘算法,有经典的,也有比较新提出的,现在我们再来学习一种比较新的频繁项集挖掘算法——H-mine算法。 前面已经提到FP-growth 将挖掘长频繁模式的问题转换为递归地搜索较短模式,然后连接后缀。该算法使用最不频繁的项作为后缀,提供了较好的选择性,使用该算法大大的降低了搜索开销。但是当数据量非常大时,构造基于内存的FP 树是非常困难的...原创 2018-03-29 17:20:34 · 3930 阅读 · 1 评论