Apriori算法解析

最新推荐文章于 2024-05-18 15:53:33 发布

guoziqing506

最新推荐文章于 2024-05-18 15:53:33 发布

阅读量1.4w

点赞数 4

分类专栏：数据挖掘机器学习机器学习经典算法研究文章标签：机器学习数据挖掘算法

本文链接：https://blog.csdn.net/guoziqing506/article/details/60882713

版权

背景介绍

维克多迈尔在《大数据时代》中，提出了大数据时代跟传统的信息时代相比，最本质的三个思维变革：1. 要全体数据，而不仅是样本；2. 要混杂，而不要效率偏低的精确；3. 要相关关系，而不是因果关系。这第三条说的就是数据挖掘中，最基础，最简单，也是最为重要的应用——数据相关关系的挖掘。相关关系，其实是数据中蕴含的最直接的知识，而对这种相关关系的挖掘，如今也早已应用到推荐系统，个性化检索，机器学习，以及很多更加高级的领域。所以说，相关关系的挖掘，第一，它极为重要，它几乎是数据挖掘和传统数据分析侧重点的分水岭，在如今这个数据时代，它是最重要也是最基本的数据技能；第二，它不难，一般的相关关系挖掘，不需要太过精深的理论；第三，它很普及，已经渗入了生活的方方面面。而这个问题入门级的算法，就是本文要说的Apriori算法，也叫“先验算法”。

当然，Apriori算法虽然本身不难，也容易理解，但是还是有必要学习一下它的产生思路。一来能有个更深入的认识，二来，也算是对数据相关关系基本特征有个理解。所以，我将用较大的一个篇幅，说明Apriori的相关背景。这一点，我觉得比学习算法本身，更有意义。

这首先得从生活中最普通的购物篮说起，我们去买东西，经常把一下商品放在一起购买，比如，我去买红酒，可能会连带着酒杯一起，我去买被子，可能会连带着枕头一起。因为，这些东西其实背后是存在着某种关联的。当然，我们不妨像维克多迈尔说的那样，先不用去管这样东西背后到底是为什么关联起来的，这是科学家和哲学家想的事情，作为商店的老板，你需要想的，只是知道什么东西之间存在关联就可以了。这样，就能通过对商店里商品的摆放，提高你的营业额。一个著名的例子是沃尔玛超市的“啤酒”和“尿布”。

购物篮的例子，可以用来说明两个问题：

在很多生活实例中，确实事物之间会存在某种关系，或强或弱，而如果我们能通过计算发现这种关联，那就太有用了！
发现这种关联的一个前提条件，就是我得知道哪些东西是经常在一起出现的。

上面两点，就是Apriori算法产生的原因。

算法原理

好了，到此，将5，6，7，8四个概念统一起来，我们可以得到一个结论：实体间关联规则的强弱可以通过它们的相对支持度和置信度决定，而这两个指标又可以通过绝对支持度： $support(A)$ 和 $support(A\cup B)$ 来计算。所以说，关联规则挖掘也就可以转化为频繁项集的挖掘。

这样，关联规则的挖掘是一个两步的过程：

找出所有的频繁项集：根据相对支持度，置信度的定义可知，任意两个实体之间如果存在强关联规则，那么一定存在于频繁项集之中，反之，如果这两个实体不存在于频繁项集，则一定不会产生强关联规则
由频繁项集产生强关联规则：计算支持度和置信度，找到实体间的强规则

显然，当我们确定了要分析的实体之后，第二步的开销就很小了。关键是第一步：挖掘频繁项集。而Apriori算法解决的就是这个问题。

Apriori翻译成中文是“先验”，所以，不难想到，先验性质就是整个Apriori的核心。

定理1：先验性质：频繁项集的所有非空子集也一定是频繁的。

说明：这个概念很容易理解了，比如一个项集 $\{I_1, I_2, I_3\}$ 是频繁的，那么，说明这三个项同时出现的次数是大于最小支持度计数的，所以，我们可以推知，他的任何非空子集， $\{I_1\}$ , $\{I_2, I_3\}$ 等等的支持度计数也一定比预先定义的阈值要大，故而都是频繁的。

反过来，我们可以换个角度来思考这个问题，如果一个项集 $I$ 是频繁的，那么给这个项集在加一个项 $A$ ，则这个新的项集 $\{I\cup A\}$ 则至少不会比 $I$ 更加频繁，因为加了东西，所以项集中所有项同时出现的次数一定不会增加。

进一步思考可以得到这样一个结论：如果项集 $I$ 是非频繁的，那么无论给它增加什么项，多少项，他都不会变成频繁项集。这种特殊的性质，也叫“反单调性”。我们将这种“反单调性”换个说法，写成下面的定理2：

定理2：反单调性：一个项集，如果有至少一个非空子集是非频繁的，那么这个项集一定是非频繁的。

正是利用了上面的定理1，定理2，Apriori被设计出来，它通过逐层搜索的模式，由频繁 $k - 1$ 项集生成频繁 $k$ 项集，从而最终得到全部的频繁项集。

可见，Apriori最核心的部件就是怎样通过频繁

最低0.47元/天解锁文章

guoziqing506

关注

4
点赞
踩
40

收藏

觉得还不错? 一键收藏
5
评论
Apriori算法解析

背景介绍维克多迈尔在《大数据时代》中，提出了大数据时代跟传统的信息时代相比，最本质的三个思维变革：1. 要全体数据，而不仅是样本；2. 要混杂，而不要效率偏低的精确；3. 要相关关系，而不是因果关系。这第三条说的就是数据挖掘中，最基础，最简单，也是最为重要的应用——数据相关关系的挖掘。相关关系，其实是数据中蕴含的最直接的知识，而对这种相关关系的挖掘，如今也早已应用到推荐系统，个性化检索，机器学
复制链接

扫一扫