数据挖掘-关联分析



关联分析

关联规则挖掘是找出二个或多个现象同时出现或不出现的规律性。举个栗子:规则顾客买啤酒就买尿不湿。


支持度


如果100个订单中同时出现啤酒和尿不湿的订单有20个,规则的支持度是20/100=20%。支持度帮助我们寻找更频繁出现的关联规则。


置信度


如果买啤酒的订单是40,规则的置信度是20/40=50%。置信度帮助我们寻找强关联的关联规则。用支持度和置信度能很好地发现和过滤出强关联规则。


相关性



后来人们发现,如果尿不湿的订单是30个,啤酒尿不湿是一个强的关联规则,但是如果尿不湿的订单是60个的时候,发现规则不买啤酒的人买尿不湿的置信度更高40/60=66%,表明这是一个更好的强规则。于是引入提升度一种简单的相关性,规则的提升度是20*100/(40*60)<1表明规则负相关,也就不是好的强关联规则。


兴趣度


然后人们也发现如果不买啤酒也不买尿不湿的的订单数量增加,规则的提升度会显著变化是20*150/(40*60)>1表明规则是正相关。为了消除不买啤酒也不买尿不湿订单数量的影响引入全置信度等兴趣度方法,规则的全置性度是min(20/40=50%, 20/60=33%)=33%来表示规则的兴趣度。


关联分析

关联规则挖掘是找出二个或多个现象同时出现或不出现的规律性。举个栗子:规则顾客买啤酒就买尿不湿。


支持度


如果100个订单中同时出现啤酒和尿不湿的订单有20个,规则的支持度是20/100=20%。支持度帮助我们寻找更频繁出现的关联规则。


置信度


如果买啤酒的订单是40,规则的置信度是20/40=50%。置信度帮助我们寻找强关联的关联规则。用支持度和置信度能很好地发现和过滤出强关联规则。


相关性



后来人们发现,如果尿不湿的订单是30个,啤酒尿不湿是一个强的关联规则,但是如果尿不湿的订单是60个的时候,发现规则不买啤酒的人买尿不湿的置信度更高40/60=66%,表明这是一个更好的强规则。于是引入提升度一种简单的相关性,规则的提升度是20*100/(40*60)<1表明规则负相关,也就不是好的强关联规则。


兴趣度


然后人们也发现如果不买啤酒也不买尿不湿的的订单数量增加,规则的提升度会显著变化是20*150/(40*60)>1表明规则是正相关。为了消除不买啤酒也不买尿不湿订单数量的影响引入全置信度等兴趣度方法,规则的全置性度是min(20/40=50%, 20/60=33%)=33%来表示规则的兴趣度。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值