关联规则挖掘详解与Apriori算法-CSDN博客

本文链接：https://blog.csdn.net/Erli11/article/details/25112835

关联规则挖掘定义了在交易数据库中发现有趣关联规则的过程，涉及支持度和置信度指标。该过程包括寻找高频项目组和生成关联规则两个阶段。Apriori算法是一种经典的挖掘频繁项集的算法，遵循先验性质，通过逐层搜索产生频繁项集，进而生成满足最小支持度和最小置信度的关联规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一定义

根据韩家炜等观点，关联规则定义为：
假设是I={i1,i2...im}项的集合。给定一个交易数据库D，其中每个事务(Transaction)t是 I 的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是D中事务已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。

二过程

关联规则挖掘过程主要包含两个阶段：

第一阶段，从数据集合中找出所有的高频项目组(Frequent Itemsets)；

关联规则挖掘的第一阶段必须从原始资料集合中，找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。一项目组出现的频率称为支持度(Support)，以一个包含A与B两个项目的2-itemset为例，我们可以经由公式(1)求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时，则{A,B}称为高频项目组。一个满足最小支持度的k-itemset，则称为高频k-项目组(Frequent k-itemset)，一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1，直到无法再找到更长的高频项目组为止。

第二阶段，由这些高频项目组中产生关联规则(Association Rules)。

关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则&#x