1 关联规则中,置信度和支持度的概念?
https://www.nowcoder.com/discuss/61907
1-1 支持度
表示项集(X,Y) 在总项集里出现的概率,公式为:support(X->Y)=P(X,Y)/P(l)=num(XUY)/num(l)
l 是总事务集,num() 表示求事务集里特定项集出现的次数。
1-2 置信度(confidence)
置信度表示先决条件X 发生的情况下,由关联规则X ->Y 推出Y 的概率,即在含有X的项集中,含有Y的可能性,公式为:
confidence(X->Y)=P(Y|X) =P(X,Y)/P(X)=P(XUY)/P(X)
1-3 提升度(Lift)
提升度表示含有X 的条件下,同时含有Y 的概率,与Y 总体发生的概率之比
Lift(X->Y)=P(Y|X)/P(Y)
茶叶->咖啡的支持度:即买了茶叶又买了咖啡
support(X->Y)=450/500=90%
茶叶->咖啡的置信度为:confidence(X->Y)=450/500=90%
茶叶-> 咖啡的提升度为:Lift(X->Y) =confidence(X->Y)/P(Y)=90%/((450+450)/1000)=90%/90%=1
由于提升度Lift(X->Y)=1 ,表示X 与Y 相互独立,即是否有X,对于Y 的出现无影响。也就是说,是否购买咖啡,与有没有购买茶叶无关联,即规则茶叶-> 咖啡 不成立,或者说关联很小,几乎没有,虽然它的支持度和置信度都高达90%,但它不是一条有效的关联规则。
满足最小支出度和最小置信度的规则,叫做 强关联规则,然而强关联规则里,也分有效的强关联规则和无效的强关联规则。
如果Lift(X->Y) >1, 则规则X->Y 是强有效的强关联规则
如果Lift(X-.y)<=1 ,则规则X->Y 是无效的强关联规则
Lift(X->Y) =1,表示X与Y 相互独立。