数据挖掘-07

画个圈圈诅咒你 yebo

于 2022-08-21 21:30:17 发布

阅读量275

点赞数

分类专栏：学习笔记文章标签：数据挖掘数据库人工智能

本文链接：https://blog.csdn.net/qq_53950248/article/details/126455667

版权

Apriori算法是关联规则学习中的一种方法，主要用于在大型数据库中发现变量间的有趣关系。它通过支持度和置信度来衡量项集的频繁程度和规则的可信程度，采用Apriori定律来减少频繁项集的生成时间。算法包括频繁项集的挖掘、候选频繁项集的生成和关联规则的产生等步骤。虽然Apriori算法在数据集较大时效率较低，但其原理和应用对于数据挖掘至关重要。

摘要由CSDN通过智能技术生成

Apriori算法

背景

关联规则学习（Association rule learning）是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。

关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。

理论

当寻找频繁项集时,频繁(frequent)的定义是什么?

最重要的是支持度和可信度。

1、一个项集的支持度(support)

被定义为数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小支持度的项集。

2、可信度或置信度(confidence)

是针对一条诸如{尿布} ➞ {啤酒}的关联规则来定义的。这条规则的可信度被定义为“支持度({尿布, 啤酒})/支持度({尿布})”。

假设{尿布, 啤酒}的支持度为3/5,尿布的支持度为4/5,则“尿布 ➞ 啤酒”的可信度为3/4=0.75。简单来说，就是用户购买尿布的事件中包含“购买尿布和啤酒”的比率。这意味着对于包含“尿布”的所有记录,我们的规则对其中75%的记录都适用。

3、Lift（提升度）：表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达：Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。提升度反映了关联规则中的A与B的相关性，提升度>1且越高表明正相关性越高，提升度<1且越低表明负相关性越高，提升度=1表明没有相关性。

为了减少频繁项集的生成时间，可以尽早的消除一些完全不可能是频繁项集的集合，用到Apriori的两条定律。

Apriori定律1：如果一个集合是频繁项集，则它的所有子集都是频繁项集。举例：假设一个集合{A,B}是频繁项集，即A、B同时出现在一条记录的次数大于等于最小支持度min_support，则它的子集{A},{B}出现次数必定大于等于min_support，即它的子集都是频繁项集。

Apriori定律2：如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。举例：假设集合{A}不是频繁项集，即A出现的次数小于min_support，则它的任何超集如{A,B}出现的次数必定小于min_support，因此其超集必定也不是频繁项集。

术语定义

项集：

最低0.47元/天解锁文章

画个圈圈诅咒你 yebo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-07

项集：项的集合称为项集。包含k个元素的项集为k项集。数据库中的记录。支持度：数据项集A的支持度support(A)是数据库D中包含A的事务数量与D的总事务数量之比,即support（A）= P（A）。有时为了表示方便，数据项集A的支持度是用数据库D中包含A的数量来表示。num(A∪B)表示含有物品集{A,B}的事务集的个数，不是数学中的并集。最小支持度： minsupport，用户指定的一个阈值，取值为0-1。频繁项集：如果k项集A满足最小支持度阈值，称为频繁k项集。候选项集。
复制链接

扫一扫