第11章:使用Apriori算法进行关联分析(计算频繁项集)

目的:找到数据集中事务的关系,如超市中经常一起出现的物品集合,想找到支持度超过0.8的所有项集概念:频繁项集:指经常出现在一起的物品集合;关联规则:指两个物品之间可能存在很强的关系,如一个人买了什么之后很大可能会买另一种东西;支持度:数据集中包含该项集的记录所占的比例;保留满足最小支持度的项集即为频繁项集;可信度:针对诸如{尿布}-{葡萄酒}这样的关联规则产生的,定义为支持度(...
摘要由CSDN通过智能技术生成

目的:找到数据集中事务的关系,如超市中经常一起出现的物品集合,想找到支持度超过0.8的所有项集

概念:

频繁项集:指经常出现在一起的物品集合;

关联规则:指两个物品之间可能存在很强的关系,如一个人买了什么之后很大可能会买另一种东西;

支持度:数据集中包含该项集的记录所占的比例;保留满足最小支持度的项集即为频繁项集;

可信度:针对诸如{尿布}-{葡萄酒}这样的关联规则产生的,定义为支持度({尿布,葡萄酒})/支持度({尿布})

Apriori原理:

想找到支持度超过0.8的所有项集,一般做法是生成所有可能的组合,对每种组合统计其出现的频繁程度,当物品较多时,做法很慢。Apriori帮助减少可能感兴趣的项集数,原理是如果某个项集是频繁的,则它的所有子集也是频繁,但是反过来,如果一个项集是非频繁的,则它的所有超集也是非频繁的。因此该算法从最简单的一个元素开始,计算一个元素的支持度,如果支持度小于最小支持度,则去除该元素;然后将两个元素结合,计算两个元素的支持度,仍然小于最小支持度则去除,以此类推找到所有可能的大于最小支持度的元素组合。

代码:


                
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值