含随机噪声的近似频繁项集挖掘
1 引言
频繁项集挖掘是数据挖掘研究的重点主题,也是广泛应用领域中数据分析的重要第一步。传统的频繁项集精确模型要求每个项在每个支持事务中精确出现。然而,实际应用数据通常会受到随机噪声或测量误差的影响,这给从噪声数据中高效发现频繁项集带来了新的挑战。
频繁模式在关联规则挖掘、索引、分类和聚类等领域有广泛应用。例如,在基因表达数据探索中,发现显著影响基因调控的条件集和共同调控的基因集很有意义;在基于频繁模式的分类中,探索属性之间的关联及其与类标签或功能的关系也很重要。
但精确频繁项集挖掘存在一个内在问题,即支持度的定义过于严格。在实际应用中,数据库往往受到随机噪声或测量误差的影响,这些噪声会扭曲真实的潜在模式。即使是低水平的噪声,也会使大的频繁项集破碎成对数大小的片段,导致精确频繁项集挖掘算法无法恢复这些项集。
为了解决这个问题,接下来将介绍三种不同的方法:启发式容错项集(ETI)方法、基于Apriori的近似频繁项集(AFI)方法和核心模式恢复(AC - Close)方法。
2 初步概念
设事务数据库D为一个n×m的二进制矩阵,I = {i1, i2, …, im}为所有项的集合,T = {t1, t2, …, tn}为所有事务的集合。I的子集称为项集,D的每一行是一个事务t∈T,每一列是一个项i∈I。如果对于项集x中的每个项i,对应的条目D(t, i) = 1,则事务t支持项集x。如果支持项集x的事务比例不低于用户指定的阈值min sup,则项集x是频繁的。
为了处理误差,一种直观的方法是放宽频繁项集确定的子矩阵完全由1组成的要求,允许其包含大部分1和小部分0。基于此
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



