机器学习——关联规则

最新推荐文章于 2024-06-29 14:47:38 发布

橘子果酱CV

最新推荐文章于 2024-06-29 14:47:38 发布

阅读量5.3k

点赞数 3

分类专栏：机器学习文章标签：支持度置信度 Apriori算法关联规则

本文链接：https://blog.csdn.net/Dujing2019/article/details/98479562

版权

本文介绍了关联规则的基本原理，包括支持度、置信度和Apriori算法。通过实例解释了如何评估关联规则的强弱，并展示了如何在Python中使用mlxtend库进行关联规则挖掘。此外，还探讨了Apriori算法如何减少计算复杂性。

摘要由CSDN通过智能技术生成

在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，超市也因此发现了一个规律，在购买婴儿尿布的年轻父亲们中，有30%～40%的人同时要买一些啤酒。超市随后调整了货架的摆放，把尿布和啤酒放在一起，明显增加了销售额。

若两个或多个变量的取值之间存在某种规律性，就称为关联。

关联规则是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。

一个样本称为一个事物
每个事务由多个属性来确定，这里的属性称为“项”
多个项组成的集合称为“项集”

由k个项构成的集合
{牛奶}、{啤酒}都是1-项集；
{牛奶，果冻}是2-项集；
{啤酒，面包，牛奶}是3-项集

X==>Y含义：
X和Y是项集
X称为规则前项（antecedent）
Y称为规则后项（consequent）

事务仅包含其涉及到的项目，而不包含项目的具体信息。

在超级市场的关联规则挖掘问题中事务是顾客一次购物所购买的商品，但事务中并不包含这些商品的具体信息，如商品的数量、价格等。

支持度（support）：一个项集或者规则在所有事务中出现的频率，σ(X):表示项集X的支持度计数

置信度（confidence）：确定Y在包含X的事务中出现的频繁程度。
$c(X\rightarrow Y)=\sigma (X\cup Y)/\sigma (X)$

关注