2021-09-15频繁项集的评估标准

最新推荐文章于 2023-01-18 17:07:43 发布

AI生成曾小健

最新推荐文章于 2023-01-18 17:07:43 发布

阅读量911

点赞数 1

分类专栏：大数据文章标签： r语言

本文链接：https://blog.csdn.net/sinat_37574187/article/details/120311256

版权

大数据专栏收录该内容

21 篇文章 1 订阅

订阅专栏

本文详细介绍了频繁项集的评估标准，包括支持度的概念及其在关联规则挖掘中的应用，以及Apriori算法如何通过逐层搜索和剪枝策略挖掘频繁项集。此外，探讨了Apriori算法的改进策略，如基于事务压缩的方法，以提高效率。

摘要由CSDN通过智能技术生成

1. 频繁项集的评估标准

　　　　什么样的数据才是频繁项集呢？也许你会说，这还不简单，肉眼一扫，一起出现次数多的数据集就是频繁项集吗！的确，这也没有说错，但是有两个问题，第一是当数据量非常大的时候，我们没法直接肉眼发现频繁项集，这催生了关联规则挖掘的算法，比如Apriori, PrefixSpan, CBA。第二是我们缺乏一个频繁项集的标准。比如10条记录，里面A和B同时出现了三次，那么我们能不能说A和B一起构成频繁项集呢？因此我们需要一个评估频繁项集的标准。

　　　　常用的频繁项集的评估标准有支持度,置信度和提升度三个。

　　　　支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率。如果我们有两个想分析关联性的数据X和Y，则对应的支持度为:

该算法的核心思想就是对目标事务库采用逐层迭代搜索的方式进行挖掘k 阶频繁项目集，直至找到最高阶的频繁项目集即止，最后通过获得的频繁项目集进行关联规则挖掘，从而实现挖掘目标数据间关联关系的最终目标。 Apriori 算法的主要策略是根据预先设定的最小支持度获取目标事务库中的全部频繁项目集，再根据频繁项目集快速获取出关联规则，详细的挖掘步骤如下所示：步骤一：首次遍历目标事务库，找出 1 阶频繁项集 L1。步骤二：将 )2( k1 kL  采用自身连接生成k 阶候选项目集Ck 。步骤三：根据频繁项目集的任一子集全部都为频繁项目集，可以对k 阶候选项目集 Ck 进行剪枝。假设 Ck 1 是 Ck 的任意一个 k  )1( 阶子集，若  LC kk  11 ，则  LC kk ，则该候选项目集肯定不是频繁的，可以直接将该候选项目集进行删除。步骤四：循环步骤二、步骤三，直至不能得到更高阶的频繁项目集为止，在得出的所有频繁项目集中计算出满足要求的关联规则，挖掘过程结束。为了更直观地说明 Apriori 算法的挖掘步骤，将给出一个具体事例，简单起见，假设事务库 D 有 5 条记录，具体内容如表 2.1 所示以及最小支持度为 2。