总述:在应用数据挖掘方法的时候,我们要找到算法的约束条件和化简条件,缩减算法的时间复杂度和空间复杂度。频繁模式就是对算法中结果进行描述,甚至做出进一步的刻画和限定,引导数据挖掘向结果进行靠近。
- 频繁模式是什么
- 有效的可伸缩的频繁项集挖掘方法有哪些
- 如果数据之间存在潜在的关联关系,如何去挖掘
- 怎么从关联挖掘的结果进行相关分析
- 实际情况下基于约束的关联挖掘是怎么回事
1.频繁模式是什么
答:频繁模式是频繁地出现在数据集中的模式。频繁模式反应了一些关联规则。当规则的支持度和置信度是规则兴趣的两种度量,分别反应了所发现规则的有用性和确定性。如果规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的。
对频繁模式用数据库的基本知识解读:我们假设有一张表,存在多个字段,我们假定存在字段A和B是这张表中的字段。这张表中存在了大量的数据,记做数据集T。T中每一条记录都有唯一的标识符TID。当数据T中存在的数据计算比例的时候发现,A某个取值和B的某个取值存在一定的关联关系,我们就称A和B在数据集T上存在关联成立,具有一个关联支持度s,s是T中A某个取值同时B取某个值同在一条记录的记录数与T的总记录数比值。在数据集T上,A和B关联关系的置信度c是A某个取值同时B取某个值同在一条记录的记录数与A某个取值的比值。
仔细分析就会发现,关联关系最强的时候可能成为字段的某种函数依赖关系。实际上这种关联关系是基于数据事实进行分析的,只有当关联支持度和置信度超过最小关联支持度阈值和最小置信度阈值的时候才是强规则。根据频繁模式的定义可以得出,在具体挖掘过程中先计算关联支持度,再计算置信度。
2.有效的可伸缩的频繁项集挖掘方法有哪些