推荐书籍《智能数据挖掘--面向不确定数据的频繁模式》 于晓梅 王红著
推荐著名开源数据挖掘软件SPMF http://www.philippe-fournier-viger.com/spmf/
与传统确定数据的表示方式不同,不确定数据的特点是每个数据对象不是单个数据点,而是按照概率在多个数据点上出现。线虽然,数据的不确定性对挖掘结果产生了不可忽视的影响。目前,关于不确定数据挖掘技术的研究包括分类、聚类、频繁模式挖掘、管理规则发现、异常检测等。在这些不确定数据挖掘技术中,频繁模式挖掘作为关联规则发现的关键步骤,对任务完成的成功和实现效率起着举足轻重的作用。
关联规则发现/频繁模式挖掘也可以用于解决聚类或分类问题,完成关联聚类或关联分类任务;游离于频繁模式之外的罕见模式本质上可以看作是异常对象,因此异常检测问题又可以兼做关联规则发现/频繁模式挖掘问题的对偶问题,基于逆向频繁模式挖局思想发现异常模式也是解决异常检测问题的有效方案。
传统的频繁模式挖掘技术依靠支持度作为项集出现频繁程度的唯一度量,当一个项集的支持度达不到最小支持度阈值,这个项集的支持度达不到最小支持度阈值,这个项集就被丢弃。
从指定数据中挖掘出的频繁模式大致分为以下几类:完整的频繁项集、频繁闭项集、最大频繁项集、Top-k频繁模式和近似频繁模式。这里,挖掘完整的频繁项集是最基本的方法,其他四类频繁模式是完整频繁项集的压缩版本。其中,频繁闭项集是频繁项集的无损压缩集合,而最大频繁项集、Top-k频繁模式好近似频繁模式都是频繁项集的有损压缩集合。
1、不确定频繁模式挖掘技术综