一、理论知识概述
一个样本称为一个“事务”
每个事务由多个属性来确定,这里的属性称为“项”
多个项组成的集合称为“项集”
X==>Y含义:
X和Y是项集
X称为规则前项
Y称为规则后项
事务仅包含其涉及到的项目,而不包含项目的具体信息。
在超级市场的关联规则挖掘问题中,事务是顾客一次购物所购买的商品,但事务中并不包括这些商品的具体信息,如商品的数量、价格等。
支持度(support):一个项集或者规则在所有事务中出现的频率,σ(X):表示项集X的支持度计数
项集X的支持度:s(X)=σ(X)/N
规则X==>Y表示物品集X对物品集Y的支持度,也就是物品集X和物品集Y同时出现的概率
某天共有100个顾客到商场购买物品,其中有30个顾客同时购买了啤酒和尿布,那么上述的关联规则的支持度就是30%
置信度(confidence):确定Y在包含X的事务中出现的频繁程度。c(X→Y)=σ(X∪Y)/σ(X)
P(Y|X)=P(XY)/P(X)
置信度反映了关联规则的可信度,购买了项目集X中的商品的顾客同时也购买了项目集Y中的商品的可能性有多大
购买薯片的顾客中有50%的人也购买了可乐,则置信度为50%
设最小支持度为50%, 最小可信度为 50%, 则可得到 :
A==>C (50%, 66.6%)
C==>A (50%, 100%)
若关联规则X->Y的支持度和置信度分别大于或等于用户指定的最小支持率minsupport和最小置信度minconfidence,则称关联规则X->Y为强关联规则,否则称关联规则X->Y为弱关联规则。
提升度(lift):物品集A的出现对物品集B的出现的概率发生了多大的变化
lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)
现在有1000个消费者,有500人购买了茶叶,其中有450人同时 购买了咖啡,另50人没有。由于confidence(茶叶=>咖啡)=450/500=90%,由此可能会认为喜欢喝茶的人往往喜欢喝咖啡。但如果另外没有购买茶叶的500人,其中同样有450人购买了咖啡,同样是很高的置信度90%,由此得到不爱喝茶的也爱喝咖啡。这样看来,其实是否购买咖啡,与有没有购买茶叶并没有关联,两者是相互独立的,其提升度90%/[(450+450)/1000]=1 。
由此可见,lift正是弥补了confidence的这一缺陷,if lift=1,X与Y独立,X对Y出现的可能性没有提升作用,其值越大(lift>1),则表明X对Y的提升程度越大,也表明关联性越强。
Leverage 与 Conviction的作用和lift类似,都是值越大代表越关联
Leverage :