数据挖掘算法-Apriori Algorithm（关联规则）

最新推荐文章于 2024-04-03 22:46:22 发布

natwsrjv

最新推荐文章于 2024-04-03 22:46:22 发布

阅读量465

点赞数

文章标签： sql server 数据库

本文链接：https://blog.csdn.net/u013948191/article/details/50291401

版权

Apriori算法是关联规则挖掘的基础，由Rakesh Agrawal和Ramakrishnan Srikant在1994年提出。本文介绍了Apriori的核心概念，包括支持度、置信度和候选集，以及算法的优化方法如Fp-tree和垂直数据分布。Apriori算法的缺点在于多次扫描大型数据库和可能产生的大量候选集。关联规则的应用如'尿布和啤酒'的故事展示了其在市场篮子分析中的价值。除了Apriori，还有多种并行数据挖掘算法基于此进行优化。

摘要由CSDN通过智能技术生成

本人刚开始学数据挖掘，虽然之前看过一本《数据挖掘原理与应用：SQL Server 2005数据库》，但是只是大体上了解了一些数据挖掘的概念，并没有深入去了解一个算法。前段时间开始比较深入的学习，就以关联规则作为学习的入口点。这才有了这篇文章。

　　Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物蓝分析 (Market Basket analysis)，因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。

　　关于这个算法有一个非常有名的故事："尿布和啤酒"。故事是这样的：美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布，而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加，并一直为众商家所津津乐道。

【1】一些概念和定义