机械学习算法小结(11)——Apriori算法关联分析

使用Apriori算法进行关联分析 一、关联分析:可以在大规模大数据中寻找数据中存在的有趣关系。经过关联分析的数据可以有两种形式的关系存在:①频繁项集(frequent item sets):支持度大于预定义的最小支持度阈值的项集。也就是经常出现的在一起的数据的集合。(支持度:表示前项与后项在一个数据集中同时出现的频率。)②关联规则:(association rules):关联...
摘要由CSDN通过智能技术生成

使用Apriori算法进行关联分析

 

一、关联分析:可以在大规模大数据中寻找数据中存在的有趣关系。

经过关联分析的数据可以有两种形式的关系存在:

①频繁项集(frequent item sets):支持度大于预定义的最小支持度阈值的项集。也就是经常出现的在一起的数据的集合。(支持度:表示前项与后项在一个数据集中同时出现的频率。)

②关联规则:(association rules):关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导和后继。其中,关联规则XY,存在支持度和置信度。也就是暗示两种物品之间存在很强的关系。(置信度:  置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。)

二、下面用实例来详细了解。

1、由图中杂货铺的数据实例:

支持度:豆奶 :交易中出现的次数(4)/一共交易的次数(5)=4/5     ;豆奶+莴苣:3/5     这便是数据的支持度

关联规则 :我们举例 设 最小支持度=0.5  最小置信度 = 0.4    取数据中: 尿布 + 葡萄酒

由表中数据看出: 1,2,3,4 都有尿布, 1,2,3都有尿布+葡萄酒     

则有:尿布+葡萄酒 的支持度 = 3/5  > 最小支持度 0.5 即为频繁项集。

   尿布的支持度= 4/5  

所以:尿布+葡萄酒的置信度= 3/5   /  4/5  =3/4 =0.75  >最小置信度0.4   

所以 :尿布与葡萄酒存在关联。 

2、支持度和置信度就是用来量化关联分析的一个一种方法。

倘若我们要是想寻找支持度80%

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值