商业分析_第二篇 关联规则

1.1 关联规则的含义

关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和置信度。

1.2 支持度和置信度的定义

  • 支持度support:用来确定给定数据集的频繁程度,即给定数据集在所有数据集中出现的频率。如support(X,Y)=P(X,Y)/N
  • 置信度confidence:用来确定Y在包含X的事务中出现的频繁程度。如confidence(X->Y)=P(X,Y)/P(X)

1.3 支持度和置信度的意义

支持度:如果很低的话,代表这个规则其实是偶然出现,基本上没有意义。因此,支持度通常用来删除那些无意义的规则。
置信度:只有置信度越高,Y出现在包含X的事务中的概率菜越大。

1.4 支持度和置信度的缺点

还是以上面的1000个交易记录为例子,500个交易包含购买商品A,700个交易包含购买商品B,300个交易同时包含购买A、B商品。Support(AB)=0.3,且Confidence(A==>B)= 0.6。不管支持度和置信度看上去都很高。但是这样的关联规则是有问题的。
Confidence(A==>B)= 0.6表示用户在购买了商品A后有0.6的概率的去购买商品B,而在没有任何前提条件时,用户反而有(700/1000=0.7)的概率去购买商品B,也就是说在购买了商品A的条件反而会降低用户去购买商品B的概率。这样看来使用(A==>B)这条规则来进行推荐,还不如不推荐,随机对顾客推荐好了。为此,引入另外一个量,即提升度(Lift),以度量此规则是否可用。
在这里插入图片描述
也就是说这lift指标表示了一条关联规则是否有效,这里表示度量(A==>B)这条规则有效程度的值为1.32满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。
如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。
如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。
特别地,如果Lift(X→Y) =1,则表示X与Y相互独立

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值