关联分析算法

最新推荐文章于 2024-04-29 19:37:04 发布

bigface1234fdfg

最新推荐文章于 2024-04-29 19:37:04 发布

阅读量4.2k

点赞数 1

分类专栏： Machine Learning&&Data Mining

本文链接：https://blog.csdn.net/puqutogether/article/details/40143583

版权

Machine Learning&&Data Mining 专栏收录该内容

45 篇文章 7 订阅

订阅专栏

关联分析算法

关联分析算法的应用非常广泛，它可以在大规模数据集中找出一组有关联的数据。例如：商品分析中，我们可以分析出哪些商品之间有购买的关联，也就是买了其中一个商品之后，顾客就很有可能买另外一个商品。

频繁项集是指那些经常出现在一起的物品集合，那么如何评价这里的频繁程度呢？我们用支持度和可信度（置信度）来评价。一个项集的支持度指数据集中包含该项集的记录所占的比例，置信度为一个关联规则中这个关联成立的概率。举例来说：

从图中可以看出：

项集｛豆奶｝的支持度为4/5，项集｛豆奶，尿布｝的支持度为3/5，项集｛尿布，葡萄酒｝的支持度为3/5，项集｛尿布｝的支持度为4/5, 这样看来一个项集支持度的计算方法一目了然；
关联规则｛尿布->葡萄酒｝的可信度等于：支持度（｛尿布，葡萄酒｝）/支持度（｛尿布｝）=3/4。

但是，当物品的数据量增大的时候，使用上述遍历的方法是可以找到所有的可信度较高的关联规则，但是需要遍历的次数也是非常庞大的。此时出现了Apriori算法。

需要注意的是，Apriori算法的作用只是发现一个数据集中哪些项集是频繁的。关联分析的目标处理发现频繁项集之外，还需要从它们中间获得关联规则。不过对于关联分析而言，发现频繁项集是主要的工作，之后的关联规则则计算每个规则的可信度即可。

Apriori算法的原理：如果某个项集是频繁的，那么它的所有子集也是频繁的；如果某个项集不是频繁的，那么它的所有子集也是非频繁的。利用这样的原理，我们便可以大幅度减少计算项集的个数。因为如果能推断出该项集不是频繁的，那么就没有必要计算其支持度和可信度了。《机器学习实战》中给出了一个很好的图示来解释Apriori的作用：