数据挖掘- Analysis

本文深入探讨了数据挖掘中的关联规则挖掘,包括概念、计算复杂度、Apriori算法、FP-Growth算法和ECLAT算法。讨论了如何减少候选项的数量,以及频繁项集的紧凑表示如最大频繁项集和闭合项集。此外,文章还介绍了规则生成和评估指标,如支持度和置信度。
摘要由CSDN通过智能技术生成

定义:对于一组事务,根据一些事务的项目,发现能预测另外一些事务项目的规则

Itemset(项集):包含一个或者多个条目(item)的集合

Support count(支持度计数):项集出现的频率(次数)

Support(支持度):事务中包含项集的概率.

Frequent Itemset(频繁项集):支持度大于等于最小支持度阈值的项集

Association Rule(关联规则):表示对X->Y这种形式的蕴含.

Rule Evaluation Metrics(规则评估指标)

  • 支持度: 事务中包含X,Y的概率
  • 置信度:衡量Y出现在包含X的事务中的频率

关联规则挖掘测试

目标:给定一系列事务T,关联规则挖掘的任务就是去找出所有满足以下条件的规则
- 支持度>=minsup threshold
- 置信度>=minconf threshold

暴力方法:(计算复杂度高)
-列出所有可能的关联规则
-计算每一个规则的支持度和置信度
-修剪去除不符合minsup 和 minconf thresholds的规则

关联规则挖掘算法

两个步骤:
1.频繁项集的生成:生成所有支持度>=最小阀值的所有项集
2.规则生成:从每一个频繁项集中生成高置信度规则

频繁项集生成的计算成本依旧很大

暴力方法

  • 在格子内的每一个项集都可能是频繁项集
  • 扫描数据库,计算每一个候选项
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值