【数据挖掘笔记七】高级模式挖掘

最新推荐文章于 2024-04-05 22:37:26 发布

fjssharpsword

最新推荐文章于 2024-04-05 22:37:26 发布

阅读量3.2k

点赞数 5

分类专栏： Algorithm

本文链接：https://blog.csdn.net/fjssharpsword/article/details/79281884

版权

Algorithm 专栏收录该内容

216 篇文章 23 订阅

订阅专栏

7.高级模式挖掘

模式挖掘是比频繁模式挖掘更一般的术语，前者还涵盖了稀有模式和负模式。

7.1 模式挖掘：一个路线图

模式挖掘的研究关注三个方面：所挖掘的模式类型、挖掘方法和应用。

模式挖掘研究的一般路线图：

7.2 多层、多维空间中的模式挖掘

多层关联涉及多个抽象层的概念。多维关联涉及多个维或谓词。量化关联涉及其值之间有序的数值属性。负模式显示项之间的负关联。

1）挖掘多层关联规则

在多个抽象层的数据上挖掘产生的关联规则称为多层关联规则。在支持度-置信度框架下，使用概念分层可有效地挖掘多层关联规则。一般而言，可采用自顶向下策略，由概念层1开始，向下到较低的、更特定的概念层，在每个概念层累计计数，计算频繁项集，直到不能再找到频繁项集。

2）挖掘多维关联规则

涉及两个或多个维或谓词的关联规则称做多维关联规则(multidimensional association rule)。多个谓词，但每个谓词在规则中仅出现一次，称其具有不重复谓词。具有不重复谓词的关联规则称做维间关联规则。挖掘具有重复谓词的关联规则，包括某些谓词的多次出现，称做混合维关联规则。

挖掘多维关联规则的技术分为两种方法：

第一种方法，使用预先定义的概念分层对量化属性离散化，方法称为使用量化属性的静态离散化挖掘多维关联规则；

第二种方法，根据数据分布将量化属性离散化或聚类到“箱”，方法称为动态量化关联规则。

K-谓词集是包含k个合取谓词的集合。

3）挖掘量化关联规则

基于数据立方体挖掘的量化关联规则，在多维空间存储聚集信息，可用于计算多维关联规则的支持度和置信度。

基于聚类的量化关联规则，有趣的频繁模式或关联规则通常在量化属性相对稠密的簇中出现，可采用自顶向下的聚类和自底向上的聚类来发现量化规则。

使用统计学理论发现异常行为，使用统计检验证实规则的有效性。

4）挖掘稀有模式和负模式

有趣的不只是频繁模式，也可能是稀有模式或发现反映项之间负相关的负模式。

7.3 基于约束的频繁模式挖掘

基于约束的挖掘包括：

1）知识类型约束：指定待挖掘的知识类型，如关联、相关、分类或聚类。

2）数据约束：指定任务相关的数据集。

3）维/层约束：指定挖掘中所使用的数据维（或属性）、抽象层，或概念分层结构的层次。

4）兴趣度约束：指定规则兴趣度的统计度量阈值，如支持度、置信度和相关性。

5）规则约束：指定要挖掘的规则形式或条件。这个约束可以用元规则（规则模板）表示，如可以出现在规则前件或后件中谓词的最大或最小个数，或属性、属性值和聚集之间的联系。

基于约束的挖掘支持交互式探索挖掘与分析。元规则使得用户可以说明他们感兴趣的规则的语法形式。规则的形式可以作为约束，帮助提高挖掘过程的性能。元规则可以根据分析者的经验、期望或对数据的直觉，或者根据数据库模式自动产生。

一般而言，一种有效的频繁模式挖掘过程可以用两种主要方法在挖掘期间对其搜索空间进行剪枝：模式搜索空间剪枝和数据搜索空间剪枝。

7.4 挖掘高维数据和巨型模式

搜索空间随维数呈指数增长，解决上，一个方向是利用垂直数据格式，扩充模式增长方法，处理具有大量维但少量行的数据集；另一个方向是开发模式融合的挖掘方法，用于挖掘巨型模式。

模式融合的挖掘方法，通过融合少量较短的频繁模式，形成巨型模式候选，在模式搜索空间跳跃，避开了宽度优先和深度优先搜索容易落入的陷阱，可以得到巨型频繁模式完全集的一个很好的近似解。

模式融合旨在产生巨型模式的近似解，需引进一个质量评估模型，即核模式。融合模式有两个阶段：

1）池初始化：模式融合假定有一个短频繁模式的初始池，是一个短长度的频繁模式的完全集，这个初始池可以用任意已有的有效挖掘算法挖掘。

2）迭代的模式融合：模式融合取用户指定的参数K作为输入，K是要挖掘模式的最大个数。挖局过程是迭代的，每次迭代中，从当前池中随机地选择K个种子，对于每个种子，找出直接为既定值的球内的所有模式。然后，每个球中的所有模式融合在一起，形成一个超模式集。这些超模式形成新的池，由于每个超模式的支集随迭代而收敛，因此迭代过程终止。

7.5 挖掘压缩或近似模式

频繁模式挖掘的主要挑战是所发现的模式数量巨大。为压缩挖掘产生的巨大的频繁模式集，同时维持高质量的模式，可以挖掘频繁模式的压缩集合或近似集合。Top-k最频繁闭模式的提出使得挖掘过程只关注k个最频繁模式。

1）通过模式聚类挖掘压缩模式

模式聚类，要先定义一种好的相似性度量，根据该度量对模式聚类，然后每个簇仅选择和输出一个代表模式。由于闭频繁模式的集合是原频繁模式集合的无损压缩，因此在闭模式集合上发现代表模式是可行的。

2）提取感知冗余的top-k模式

挖掘top-k个最频繁模式是一种减少挖掘返回的模式数量的策略。感知冗余的top-k模式在显著性和冗余性之间进行平衡，定义两个模式间的冗余性。

7.6 模式探索和应用

通过频繁模式的语义注解返回附加信息，有助于理解模式。频繁模式高质量语义注解的关键是成功的模式语境建模。语义模式注解的基本任务是：

1）选择语境单元，并多每个单元设计强度权重，对频繁模式的语境建模；

2）为两个模式的语境、一个事务和一个模式的语境设计相似性度量；

3）对于给定的频繁模式，提取最显著的语境指示符、代表事务和语义相似模式，构建注解。

在数据密集型应用中，模式挖掘作为预处理，广泛地用于噪声过滤和数据清理。模式挖掘也有助于发现隐藏在数据中的固有结构和簇。频繁模式也可用于高维空间中子空间的有效聚类。对于时间空间数据、时间序列数据、图像数据、视频数据和多媒体数据的分析，模式分析也是有用的。模式挖掘还用于序列或结构数据分析，如树、图、子序列和网络分析。频繁模式和有判别力的模式可用做基本的索引结构（称为图索引），帮助搜索大型复杂的、结构化的数据集和网络。频繁模式还可用于推荐系统，可发现相关性、顾客行为的簇和基于一般事件或有判别力模式的分类模型。对模式挖掘有效计算方法的研究和可伸缩的计算研究相互加强。

7.7 小结

1）除了挖掘基本的频繁项集和关联外，还可以挖掘高级的模式形式，如多层关联和多维关联、量化关联规则、稀有模式和负模式，还可挖掘高维模式、压缩的或近似的模式。

2）多层关联涉及多个抽象层中的数据，还可以使用多个最小支持度阈值挖掘。多维关联包含多个维。挖掘这种关联的技术因如何处理重复谓词而异。量化关联规则涉及量化属性。离散化、聚类和揭示异常行为的统计分析可以与模式挖掘过程集成在一起。

3）稀有模式很少出现但特别有趣。负模式是其成员呈现负相关行为的模式。需小心定义负模式，考虑零不变性性质。稀有模式和负模式可能凸显数据的异常行为，可能很有趣。

4）基于约束的挖掘策略可以用来引导挖掘过程，挖掘与用户直观一致或满足某些约束的模式。约束分为模式剪枝约束和数据剪枝约束，这些约束的性质包括单调性、反单调性、数据反单调性和简洁性。

5）高维空间模式挖掘方法，包括为挖掘维数很大但元组很少的数据集（如微阵列数据）的基于行枚举的模式增长方法，以及通过模式融合方法挖掘巨型模式（即非常大的模式）。

6）为减少挖掘返回的模式数量，可以代之以挖掘压缩模式或近似模式。压缩模式可以通过基于聚类概念定义代表模式来挖掘，而近似模式则通过提取感知冗余的top-k模式（即k个代表模式的小集合，不仅具有高显著性，而且相互之间低冗余）来挖掘。

7）可以产生语义注解来帮助用户理解发现的频繁模式的含义。注解类似词典，提供关于项的语义信息，包括语境指示符、最具代表性的事务和语义最相似的模式。

8）频繁模式挖掘具有广泛的应用，涵盖基于模式的数据清理，到基于模式的分类、聚类、离群点或异常分析。

fjssharpsword

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
【数据挖掘笔记七】高级模式挖掘

7.高级模式挖掘模式挖掘是比频繁模式挖掘更一般的术语，前者还涵盖了稀有模式和负模式。 7.1 模式挖掘：一个路线图模式挖掘的研究关注三个方面：所挖掘的模式类型、挖掘方法和应用。模式挖掘研究的一般路线图： 7.2 多层、多维空间中的模式挖掘多层关联涉及多个抽象层的概念。多维关联涉及多个维或谓词。量化关联涉及其值之间有序的数值属性。负模式显示项之间的
复制链接

扫一扫