使用Apriori算法进行关联分析
一、关联分析:可以在大规模大数据中寻找数据中存在的有趣关系。
经过关联分析的数据可以有两种形式的关系存在:
①频繁项集(frequent item sets):支持度大于预定义的最小支持度阈值的项集。也就是经常出现的在一起的数据的集合。(支持度:表示前项与后项在一个数据集中同时出现的频率。)②关联规则:(association rules):关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导和后继。其中,关联规则XY,存在支持度和置信度。也就是暗示两种物品之间存在很强的关系。(置信度: 置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。)
二、下面用实例来详细了解。
1、由图中杂货铺的数据实例:
支持度:豆奶 :交易中出现的次数(4)/一共交易的次数(5)=4/5 ;豆奶+莴苣:3/5 这便是数据的支持度
关联规则 :我们举例 设 最小支持度=0.5 最小置信度 = 0.4 取数据中: 尿布 + 葡萄酒
由表中数据看出: 1,2,3,4 都有尿布, 1,2,3都有尿布+葡萄酒
则有:尿布+葡萄酒 的支持度 = 3/5 > 最小支持度 0.5 即为频繁项集。
尿布的支持度= 4/5
所以:尿布+葡萄酒的置信度= 3/5 / 4/5 =3/4 =0.75 >最小置信度0.4
所以 :尿布与葡萄酒存在关联。
2、支持度和置信度就是用来量化关联分析的一个一种方法。
倘若我们要是想寻找支持度80%