【转】支持度

   支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。
  该名词还常出现在数据挖掘的关联分析中,常跟 置信度(或可信性)一起出现。
  如:某超市中有1000个顾客购物,其中200个顾客购买了面包(物品集A),那么面包(物品集A)的支持度为:
  P(A)=20%(200/1000)。
  关联规则从一个侧面揭示了事务之间的某种联系。
  支持度和置信度总是伴随着关联规则存在的,它们是对关联规则的必要的补充。
  对某条关联规则而言,如 A -> B (support=30%, confidence= 60%)
  其中的support=30%是说,在所有的事务中同时出现A和B的概率。
  而,confidence=60%是说,所有事务中,在出现A的情况下出现B的概率,即条件概率。
  那么我们要怎样设置支持度和置信度呢?
  支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系
  并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了。这就
  涉及到如何正确设置支持度的问题。
  当然,对数据库中的隐藏的关联规则的挖掘有一个重要的性质就是知识总是出现在不同的层面上,
  因此这也是一个需要着重考虑的问题。
  置信度揭示了A出现时,B是否一定会出现,如果出现则其大概有多大的可能出现。如果置信度为100%,
  则说明了A出现时,B一定出现。那么,对这种情况而言,假设A和B是市场上的两种商品,就没有理由不进行捆绑销售了。
  如果置信度太低,那么就会产生这样的疑问,A和B关系并不大,也许与A关联的并不是B.
  当然了,就做题而言,往往给出支持度和置信度的要求。在一个具体的数据挖掘任务中,也是用户自行设置这两个值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值