一、什么是关联规则挖掘?
“啤酒与尿布”的故事大家都听过吧,一些年轻的父亲在去超市给孩子买尿布的时候,会顺便给自己买点啤酒,超市发现这个规律之后,就把啤酒和尿布的货架放在一起,这次改动明显增加了超市的销售额。
啤酒和尿布两者之间就存在着关联规则。
那么学会挖掘这些关联规则,用处是非常大的。
二、规则度量:支持度和置信度
支持度就是两个事务同时发生的概率。
s u p p o r t ( A , B ) = P ( A B ) support(A, B) = P(A B) support(A,B)=P(AB)
[注1] ~ P ( A B ) P(AB) P(AB)就是A和B同时出现的概率。(下同)
置信度就是
c o n f i d e n c e ( A ⇒ B ) = P ( B ∣ A ) = P ( A B ) / P ( A ) confidence(A\Rightarrow B)=P(B|A)=P(AB)/P(A) confidence(A⇒B)=P(B∣A)=P(AB)/P(A)
举个栗子:
路人甲购买了:商品A、B、C;
炮灰乙购买了:商品A、C;
流氓丙购买了:商品A、D;
土匪丁购买了:商品B、E、F。
s u p p o r t ( A , B ) = P ( A B ) = 1 / 4 = 0.25 support(A, B) = P(A B)=1/4=0.25 support(A,B)=P(AB)=1/4=0.25
s u p p o r t ( A , C ) = P ( A C ) = 2 / 4 = 0.5 support(A, C) = P(AC)=2/4=0.5 support(A,C)=P(AC)=2/4=0.5
c o n f i d e n c e ( A ⇒ B ) = P ( B ∣ A ) = P ( A B ) / P ( A ) = 1 / 3 confidence(A\Rightarrow B)=P(B|A)=P(AB)/P(A)=1/3 confidence(A⇒