15、含随机噪声的近似频繁项集挖掘

含随机噪声的近似频繁项集挖掘

1 引言

频繁项集挖掘是数据挖掘研究的重点主题,也是广泛应用领域中数据分析的重要第一步。传统的频繁项集精确模型要求每个项在每个支持事务中精确出现。然而,实际应用数据通常会受到随机噪声或测量误差的影响,这给从噪声数据中高效发现频繁项集带来了新的挑战。

频繁模式在关联规则挖掘、索引、分类和聚类等领域有广泛应用。例如,在基因表达数据探索中,发现显著影响基因调控的条件集和共同调控的基因集很有意义;在基于频繁模式的分类中,探索属性之间的关联及其与类标签或功能的关系也很重要。

但精确频繁项集挖掘存在一个内在问题,即支持度的定义过于严格。在实际应用中,数据库往往受到随机噪声或测量误差的影响,这些噪声会扭曲真实的潜在模式。即使是低水平的噪声,也会使大的频繁项集破碎成对数大小的片段,导致精确频繁项集挖掘算法无法恢复这些项集。

为了解决这个问题,接下来将介绍三种不同的方法:启发式容错项集(ETI)方法、基于Apriori的近似频繁项集(AFI)方法和核心模式恢复(AC - Close)方法。

2 初步概念

设事务数据库D为一个n×m的二进制矩阵,I = {i1, i2, …, im}为所有项的集合,T = {t1, t2, …, tn}为所有事务的集合。I的子集称为项集,D的每一行是一个事务t∈T,每一列是一个项i∈I。如果对于项集x中的每个项i,对应的条目D(t, i) = 1,则事务t支持项集x。如果支持项集x的事务比例不低于用户指定的阈值min sup,则项集x是频繁的。

为了处理误差,一种直观的方法是放宽频繁项集确定的子矩阵完全由1组成的要求,允许其包含大部分1和小部分0。基于此

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值