前面我们已经介绍了3中频繁项集挖掘算法,今天我们来介绍一种新的不需要候选项集的频繁项集挖掘算法——Relim算法。
FP-growth算法是当前挖掘频繁项集算法中速度最快,应用最广,并且不需要候选项集的一种频繁项集挖掘算法,但是FP-growth也存在着算法结构复杂和空间利用率低等缺点。Relim算法是在FP-growth算法的基础上提出的一种新的不需要候选项集的频繁项集挖掘算法。它具有算法结构简单,空间利用率高,易于实现等显著优点。
主要思想
Relim算法的主要思想和FP-growth相似,也是基于递归搜索(Recursive Exploration),但是和FP-growth不同的是:Relim算法在运行时不必创建频繁模式树,而是通过建立一个事务链表组(transaction lists)来找出所有频繁项集。
方法描述
为了更好地描述该算法,我们通过一个实例来说明Relim算法的挖掘过程。该例基于表一所示的事务数据集。数据集中有l0个事务。设最小支持度为3(即min sup=3/10=30% )。
Relim算法的挖掘过程如下:
1)与Apriori算法相同,首先对数据集(表一), 进行第一次扫描