apriori:算法(无监督学习)
-
应用场景:
- 1.啤酒、尿不湿;2.大量数据中(购物小票)找到经常在一起出现的物品组合
- 3.库存管理(摆放);4.促销页面设计;5.捆绑销售;6.内容推荐
-
相关概念
-
1.支持度support:物品或物品组合,在所有数据中出现的概率
- 公式:计算同时购买AB的支持度:support(A&B) = 同时购买AB的订单数量/总的订单数量=n(A&B)/n
-
2.置信度confidence:购买A的订单中同时购买了B的订单数量/购买A的订单数量,就称为A对B的置信度
- 公式:confidence(A->B)=P(B|A)=P(B&A)/P(A)= (n(A&B)/n)/(n(A)/n)= n(A&B)/n(A)
- 相当于条件概率的计算P(B|A)=同时出现AB的概率/出现A的概率
- 注意:A对B的置信度,与B对A的置信度不是一个概念
-
3.提升度lift:应用关联规则与不应用产生结果的比例;
- 公式:lift(A->B)= 对购买A的人运用规则计算会去买B的数量比例 / 不考虑是否购买A计算购买B的数量比例 = confidence(A->B) / support(B) = P(B&A)/P(A) / P(B) = n(A&B)/n(A) / (n(B)/n) = n(A&B)*n/n(A)/n(B) (这就是A对B的提升度,从公式很快得出,A对B的提升度与B对A的提升度相等)
- 如果lift>1,说明关联规则有效果,但在实际运用中,我们认为提升度>3才算作值得认可的关联规则
- 如果lift=1,说明没有任何意义,A与B相互独立,互不影响;
- 如果lift<1,说明有反作用,买了A就不愿意买B;
-
-
举例说明: 20个人,5个人买了面包+牛奶,3个人只买了面包,7个人只买了牛奶,还有5个人只买了鸡蛋
- 同时购买 面包+牛奶 的支持度support = 5/20=0.25 >0.1(满足支持度阈值>0.1)
- 购买面包 对 购买牛奶 的置信度confidence = 5/(5+3)=5/8 >0.5(满足置信度阈值>0.5)
- 购买牛奶 对 购买面包 的置信度confidence = 5/(5+7)=5/12 <0.5(不满足置信度阈值>0.5)
- 同时购买:面包+