智能数据挖掘--面向不确定数据的频繁模式

本文介绍了不确定数据挖掘中的频繁模式挖掘技术,包括概率频繁项集精确和近似挖掘,以及不确定序列模式挖掘。提出了基于粗糙集理论的容错挖掘方法和Top-k近似频繁闭模式模型。此外,讨论了加权频繁项集挖掘和高效用项集挖掘在应对项目权重差异中的应用。不确定数据挖掘与各类技术的交叉研究是未来趋势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

推荐书籍《智能数据挖掘--面向不确定数据的频繁模式》 于晓梅 王红著

推荐著名开源数据挖掘软件SPMF  http://www.philippe-fournier-viger.com/spmf/

与传统确定数据的表示方式不同,不确定数据的特点是每个数据对象不是单个数据点,而是按照概率在多个数据点上出现。线虽然,数据的不确定性对挖掘结果产生了不可忽视的影响。目前,关于不确定数据挖掘技术的研究包括分类、聚类、频繁模式挖掘、管理规则发现、异常检测等。在这些不确定数据挖掘技术中,频繁模式挖掘作为关联规则发现的关键步骤,对任务完成的成功和实现效率起着举足轻重的作用。

关联规则发现/频繁模式挖掘也可以用于解决聚类或分类问题,完成关联聚类或关联分类任务;游离于频繁模式之外的罕见模式本质上可以看作是异常对象,因此异常检测问题又可以兼做关联规则发现/频繁模式挖掘问题的对偶问题,基于逆向频繁模式挖局思想发现异常模式也是解决异常检测问题的有效方案。

传统的频繁模式挖掘技术依靠支持度作为项集出现频繁程度的唯一度量,当一个项集的支持度达不到最小支持度阈值,这个项集的支持度达不到最小支持度阈值,这个项集就被丢弃。

从指定数据中挖掘出的频繁模式大致分为以下几类:完整的频繁项集、频繁闭项集、最大频繁项集、Top-k频繁模式和近似频繁模式。这里,挖掘完整的频繁项集是最基本的方法,其他四类频繁模式是完整频繁项集的压缩版本。其中,频繁闭项集是频繁项集的无损压缩集合,而最大频繁项集、Top-k频繁模式好近似频繁模式都是频繁项集的有损压缩集合。

1、不确定频繁模式挖掘技术综

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值