机械学习算法小结（11）——Apriori算法关联分析

最新推荐文章于 2022-05-09 12:03:37 发布

Damone8

最新推荐文章于 2022-05-09 12:03:37 发布

阅读量893

点赞数 1

本文链接：https://blog.csdn.net/Damone8/article/details/79729185

版权

使用Apriori算法进行关联分析一、关联分析：可以在大规模大数据中寻找数据中存在的有趣关系。经过关联分析的数据可以有两种形式的关系存在：①频繁项集（frequent item sets）：支持度大于预定义的最小支持度阈值的项集。也就是经常出现的在一起的数据的集合。（支持度：表示前项与后项在一个数据集中同时出现的频率。）②关联规则：（association rules）：关联...

摘要由CSDN通过智能技术生成

使用Apriori算法进行关联分析

一、关联分析：可以在大规模大数据中寻找数据中存在的有趣关系。

经过关联分析的数据可以有两种形式的关系存在：

①频繁项集（frequent item sets）：支持度大于预定义的最小支持度阈值的项集。也就是经常出现的在一起的数据的集合。（支持度：表示前项与后项在一个数据集中同时出现的频率。）
②关联规则：（association rules）：关联规则是形如X→Y的蕴涵式，其中， X和Y分别称为关联规则的先导和后继。其中，关联规则XY，存在支持度和置信度。也就是暗示两种物品之间存在很强的关系。（置信度：置信度表示在先决条件X发生的情况下，由关联规则”X→Y“推出Y的概率。）

二、下面用实例来详细了解。

1、由图中杂货铺的数据实例：

支持度：豆奶：交易中出现的次数（4）/一共交易的次数（5）=4/5 ；豆奶+莴苣：3/5 这便是数据的支持度

关联规则：我们举例设最小支持度=0.5 最小置信度 = 0.4 取数据中：尿布 + 葡萄酒

由表中数据看出： 1，2，3，4 都有尿布， 1，2，3都有尿布+葡萄酒

则有：尿布+葡萄酒的支持度 = 3/5 > 最小支持度 0.5 即为频繁项集。

尿布的支持度= 4/5

所以：尿布+葡萄酒的置信度= 3/5 / 4/5 =3/4 =0.75 >最小置信度0.4

所以：尿布与葡萄酒存在关联。

2、支持度和置信度就是用来量化关联分析的一个一种方法。

倘若我们要是想寻找支持度80%

最低0.47元/天解锁文章

Damone8

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机械学习算法小结（11）——Apriori算法关联分析

使用Apriori算法进行关联分析一、关联分析：可以在大规模大数据中寻找数据中存在的有趣关系。经过关联分析的数据可以有两种形式的关系存在：①频繁项集（frequent item sets）：支持度大于预定义的最小支持度阈值的项集。也就是经常出现的在一起的数据的集合。（支持度：表示前项与后项在一个数据集中同时出现的频率。）②关联规则：（association rules）：关联...
复制链接

扫一扫