机器学习——关联规则

本文介绍了关联规则的基本原理,包括支持度、置信度和Apriori算法。通过实例解释了如何评估关联规则的强弱,并展示了如何在Python中使用mlxtend库进行关联规则挖掘。此外,还探讨了Apriori算法如何减少计算复杂性。
摘要由CSDN通过智能技术生成

(一)关联规则原理

在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。

若两个或多个变量的取值之间存在某种规律性,就称为关联

关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。

编号 牛奶 果冻 啤酒 面包 花生酱
T1 1 1 0 0 1
T2 0 1 0 1 0
T3 0 1 1 0 0
T4 1 1 0 1 0
T5 1 0 1 0 0
T6 0 1 1 0 0
T7 1 0 1 0 0
T8 1 1 1 0 1
T9 1 1 1 0 0

一个样本称为一个事物
每个事务由多个属性来确定,这里的属性称为“
多个项组成的集合称为“项集

由k个项构成的集合
{牛奶}、{啤酒}都是1-项集;
{牛奶,果冻}是2-项集;
{啤酒,面包,牛奶}是3-项集

X==>Y含义:
X和Y是项集
X称为规则前项(antecedent)
Y称为规则后项(consequent)

事务仅包含其涉及到的项目,而不包含项目的具体信息。

在超级市场的关联规则挖掘问题中事务是顾客一次购物所购买的商品,但事务中并不包含这些商品的具体信息,如商品的数量、价格等。

支持度(support):一个项集或者规则在所有事务中出现的频率,σ(X):表示项集X的支持度计数

  1. 项集X的支持度:s(X)=σ(X)/N。
  2. 规则X==>Y表示物品集X对物品集Y的支持度,也就是物品集X和物品集Y同时出现的概率。
  3. 某天共有100个顾客到商场购买物品,其中有30个顾客同时购买了啤酒和尿布,那么上述的关联规则的支持度就是30%。

置信度(confidence):确定Y在包含X的事务中出现的频繁程度。
c ( X → Y ) = σ ( X ∪ Y ) / σ ( X ) c(X\rightarrow Y)=\sigma (X\cup Y)/\sigma (X) c(XY)=σ(XY)/σ(X)

  1. p ( Y ∣ X ) = p ( X Y ) / p ( X ) p(Y|X)=p(XY)/p(X) p(YX)=p(XY)/p(X)
  2. 置信度反应了关联规则的可信度—购买了项目集X中的商品的顾客同时也购买了Y中商品的可能性有多大
  3. 购买薯片的
  • 3
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值