关于apriori算法中置信度、支持度怎么理解的问题

比如说啤酒和尿布的问题:

 

TID是transaction ID 即交易编号,说白了就是有五个人在超市买了这样的东西(Iteams),现在我们统计一下,大家买的东西之间有没有什么规律,比如买面包的是不是很可能同时买牛奶这样的规律。

那问题来了,有啥东西去度量面包与牛奶有没有关系以及啤酒喝尿布有没有关系?有很多,这里只说置信度和支持度:

支持度:

 

这是啥?答:support的首字母S支持度,是规则:{Milk, Diaper}{Beer}的支持度(规则是神马?就是比如说买了Milk和Diaper的人会不会买Beer),所以支持度分母是这三个都买的人数,分子是买东西的总人数。

仔细想想是不是合理这样定义?:假如这个支持度越大,说明同时买这三个东西的人多,说明这三者之间有关系!对吧?很容易理解。但是!!!!!!!!!!!!!!!!!只用这一个可靠吗?再这样想一下,交易量特别大的时候,假如有一万个人买东西,只有10个人同时买了Milk、Diaper、Beer,但其他9990个人没有买这三者中的任何一个,那么此时S=10/10000=0.001,

是不是特别小?如果仅从这个0.001看,这三者之间没有任何关系,但是事实却不是这样,因为只有十个人这样买,并且同时买了这三种东西,所以他们之间应该是由关系的,而不是偶然。

 

置信度:

为了解决上面问题,再加一个置信度概念。Confidence。根据表格计算置信度如下:

 

这是啥?和S支持度比较只有分母变了,变成了买了Milk和Diaper两种东西的人,这个式子是说买了Milk和Diaper两种东西的人里面又有多少人买了Beer这个东西!

 

 

》》》》》》》》》》》》》》》》》》你先缓缓这个式子》》》》》》》》》》》》》》》》》》》》》》》》》》》》》

 

 

那这个式子怎么就解决上面的问题了呢?还是那一万个人的情况下,此时c=10/10=100%!!!!!!!!!!!, 明白了吗,只有十个人买了Milk和Diaper两种东西,但是这十个人又都买了Beer!,所以这个值为100%,因此他能衡量一部分关联规则。

 

又有人问了,只用置信度行吗?很明显不行啊!!!比如1万个人,只有一个人买了Milk和Diaper两种东西,并且顺手买了一瓶Beer,那么此时c=1/1=100%,很大,但是很明显就这一个交易不能说明三者之间有关系啊。这时候S=1/10000=0.0001,特别的小!!!!

 

所以正确的有关联的判定是:置信度和支持度都应该比较大才可以认为这些东西之间有关联!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 26
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值