15、含随机噪声的近似频繁项集挖掘

丧尸225

于 2025-11-15 14:17:44 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：软计算赋能数据挖掘文章标签：频繁项集挖掘随机噪声近似频繁项集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/v6b7n8m9q0/article/details/154895041

软计算赋能数据挖掘专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

含随机噪声的近似频繁项集挖掘

1 引言

频繁项集挖掘是数据挖掘研究的重点主题，也是广泛应用领域中数据分析的重要第一步。传统的频繁项集精确模型要求每个项在每个支持事务中精确出现。然而，实际应用数据通常会受到随机噪声或测量误差的影响，这给从噪声数据中高效发现频繁项集带来了新的挑战。

频繁模式在关联规则挖掘、索引、分类和聚类等领域有广泛应用。例如，在基因表达数据探索中，发现显著影响基因调控的条件集和共同调控的基因集很有意义；在基于频繁模式的分类中，探索属性之间的关联及其与类标签或功能的关系也很重要。

但精确频繁项集挖掘存在一个内在问题，即支持度的定义过于严格。在实际应用中，数据库往往受到随机噪声或测量误差的影响，这些噪声会扭曲真实的潜在模式。即使是低水平的噪声，也会使大的频繁项集破碎成对数大小的片段，导致精确频繁项集挖掘算法无法恢复这些项集。

为了解决这个问题，接下来将介绍三种不同的方法：启发式容错项集（ETI）方法、基于Apriori的近似频繁项集（AFI）方法和核心模式恢复（AC - Close）方法。

2 初步概念

设事务数据库D为一个n×m的二进制矩阵，I = {i1, i2, …, im}为所有项的集合，T = {t1, t2, …, tn}为所有事务的集合。I的子集称为项集，D的每一行是一个事务t∈T，每一列是一个项i∈I。如果对于项集x中的每个项i，对应的条目D(t, i) = 1，则事务t支持项集x。如果支持项集x的事务比例不低于用户指定的阈值min sup，则项集x是频繁的。

为了处理误差，一种直观的方法是放宽频繁项集确定的子矩阵完全由1组成的要求，允许其包含大部分1和小部分0。基于此

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。