挖掘频繁模式、关联和相关

本文介绍了数据挖掘中频繁模式的概念,包括支持度和置信度的衡量,以及如何挖掘有效的频繁项集。讨论了Apriori算法、FP增长、垂直数据格式和闭频繁项集挖掘等方法。同时,探讨了如何挖掘潜在关联关系,以及从关联挖掘结果进行相关分析的统计学方法。最后,提到了实际应用中基于约束的关联挖掘策略。
摘要由CSDN通过智能技术生成

总述:在应用数据挖掘方法的时候,我们要找到算法的约束条件和化简条件,缩减算法的时间复杂度和空间复杂度。频繁模式就是对算法中结果进行描述,甚至做出进一步的刻画和限定,引导数据挖掘向结果进行靠近。

 

  1. 频繁模式是什么
  2. 有效的可伸缩的频繁项集挖掘方法有哪些
  3. 如果数据之间存在潜在的关联关系,如何去挖掘
  4. 怎么从关联挖掘的结果进行相关分析
  5. 实际情况下基于约束的关联挖掘是怎么回事

 

1.频繁模式是什么

答:频繁模式是频繁地出现在数据集中的模式。频繁模式反应了一些关联规则。当规则的支持度和置信度是规则兴趣的两种度量,分别反应了所发现规则的有用性和确定性。如果规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的。

对频繁模式用数据库的基本知识解读:我们假设有一张表,存在多个字段,我们假定存在字段A和B是这张表中的字段。这张表中存在了大量的数据,记做数据集T。T中每一条记录都有唯一的标识符TID。当数据T中存在的数据计算比例的时候发现,A某个取值和B的某个取值存在一定的关联关系,我们就称A和B在数据集T上存在关联成立,具有一个关联支持度s,s是T中A某个取值同时B取某个值同在一条记录的记录数与T的总记录数比值。在数据集T上,A和B关联关系的置信度c是A某个取值同时B取某个值同在一条记录的记录数与A某个取值的比值。

仔细分析就会发现,关联关系最强的时候可能成为字段的某种函数依赖关系。实际上这种关联关系是基于数据事实进行分析的,只有当关联支持度和置信度超过最小关联支持度阈值和最小置信度阈值的时候才是强规则。根据频繁模式的定义可以得出,在具体挖掘过程中先计算关联支持度,再计算置信度。

 

2.有效的可伸缩的频繁项集挖掘方法有哪些

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值