关联规则挖掘理论和算法(数据挖掘十大算法---Apriori算法)

一、(Apriori)发现频繁项目集

通过用户给定的 最小支持度,寻找所有频繁项目集(满足Support不小于Minsupport的所有项目子集)
逐层发现算法,按照项集的长度由下到大逐级进行,并最后发现频繁几项集

项(Item)
购物篮(Transcation):交易
项集(Itemset):所有项的集合
K项集:在集合中包含K个项的项集


支持度:support(x)=count(x) / |D| *100%
——x出现的概率


count(x):一个项集x在数据库中出现的次数x
D:数据库(交易的个数)


置信度:confidence(X->Y) = support(X->Y) / support(X) *100%
support(X)=support(X∩Y)
———X出现了的同时Y出现的概率

算法实现:
输入:数据库D;最小支持度minsup_count
输出:频繁项目集L

                                       样本事务数据库
TID Itemset
1 A,B,C,D
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘关联规则挖掘是一种常见的数据挖掘技术,用于发现数据集中的频繁项集和关联规则。频繁项集是指在数据集中经常出现在一起的一组项,而关联规则是指两个或多个项之间的关系。关联规则通常采用“如果...那么...”的形式表示,例如“如果顾客购买了牛奶和面包,那么他们也可能购买黄油”。 常见的关联规则挖掘算法包括Apriori、FP-growth、Eclat和ORAR等。Apriori算法是一种基于频繁项集的挖掘算法,它通过迭代的方式生成候选项集,并使用剪枝技术来减少候选项集的数量。FP-growth算法是一种基于树结构的挖掘算法,它通过构建一棵FP树来发现频繁项集。Eclat算法是一种基于垂直数据格式的挖掘算法,它通过交换和合并项集来发现频繁项集。ORAR算法是一种基于关联规则挖掘算法,它通过对关联规则进行排序和过滤来发现有用的规则。 对于给定的数据集,关联规则挖掘算法通常包括以下步骤: 1. 数据预处理:包括数据清洗、数据变换和数据规约等步骤。 2. 频繁项集挖掘:使用Apriori、FP-growth、Eclat等算法来发现频繁项集。 3. 关联规则生成:对于每个频繁项集,生成所有可能的关联规则。 4. 关联规则评估:使用支持、置信、提升等指标来评估关联规则的质量。 5. 关联规则筛选:根据指定的阈值来筛选出有用的关联规则。 <<请问关联规则挖掘有哪些应用场景?>> <<关联规则挖掘算法有哪些优缺点?>> <<如何评估关联规则的质量?>>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值