Apriori 算法

秃头馍馍粥

已于 2023-05-06 16:17:32 修改

阅读量664

点赞数 1

文章标签：算法

于 2023-05-06 14:08:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55830167/article/details/130509836

版权

文章介绍了数据挖掘中的基本概念，包括频繁项集和关联规则的支持度、置信度计算。Apriori算法用于找出频繁项集，通过多次扫描数据集并计算支持度，然后基于频繁项集生成满足最小置信度的关联规则。在示例中展示了算法的具体应用过程。

摘要由CSDN通过智能技术生成

基本概念

1.一些定义

定义I = {i1，i2，i3…….im} 为全局项的集合
I 中部分项或全部项构成的集合称为项集。
事务ti对应 I 的一个子集，ti是事务的唯一标识，i 表示事务的序号。事务数据库D是事务的一个集合。
给定一个全局项集和事务数据库D , 一个项集 I 1在D上的支持度是包含 I1的事务在D中所占的百分比。
对于 I 的非空子集 I1 ，若支持度大于等于最小支持度min_sup , 则称 I1 为频繁项集。
I1 项集中项的个数为K，称为k-项集 , 若 I1 是频繁项集，称为频繁k-项集。

2. 关联规则

关联规则研究的是事务集合内部的项集与项集之间的关系，这种关系有要有两种表现形式。关联规则挖掘：找出支持度大于等于minsup(最小支持度)并且置信度大于等于minconf(最小置信度)==的所有规则。

（1）支持度确定可以用于给定数据集（X和Y）的频繁程度。支持数除以事务总数

$S(X\rightarrow Y) = \frac{\delta (X\cap Y)}{N}$

（2）置信度确定Y在包含X的事务中出现的频繁程度。X与Y的支持数除以X的支持数。

$C(X\rightarrow Y) = \frac{\delta (X\cap Y)}{\delta (X)}$

（3）提升度反映了X与Y的相关性，提升度>1且越高表明正相关性越高，提升度<1且越低表明负相关性越高，提升度=1表面没有相关性。负值，有相互排斥的作用.

$P(B|A)/P(B) = P(A\cap B)/(P(A)*P(B))$

Apriori性质

若A是一个频繁项集，则A的每一个子集都是一个频繁项集。
若A是一个非频繁项目集，则A的所有超集是非频繁项目集。
若X ⊆ Y ，则support(X) ≥support(Y)

Apriori 算法描述

（1）根据最小支持度找出数据集D中的所有频集。

初始通过单遍扫描数据集，确定每个项的支持度。从而得到频繁1-项集的集合F1.
使用上次迭代发现的频繁（k-1）项集，产生新的频繁k项集。（关键步骤）
对候选集支持度计数，算法需要扫描一次数据集，使用子集函数确定包含在每一个事务t中所有候选k项集。
计算候选项的支持度计数之后，算法将删去支持度计数小于minsup的所有候选集。
当没有新的频繁项集产生，算法结束。

（2）根据频繁项目集和最小置信度产生关联规则。

上述过程不那么清晰明了，通过一个例子来简单说明一下：
例子：该例数据库中有9个事务，即|D|=9。Apriori假定事务中的项按字典次序存放

1. 生成频繁项集的过程如下：

2. 找出强关联规则

频繁集L1={I1, I2, I5}，L1的非空子集有{I1, I2}, {I1, I5}, {I2, I5}, {I1}, {I2}, {I5}

1^ I2 => I5, confidence=2/4=50%

I1 ^ I5 => I2, confidence=2/2=100 %

I2 ^ I5 => I1, confidence=2/2=100 %

I1 => I2 ^ I5, confidence=2/6=33 %

I2 => I1 ^ I5, confidence=2/7=29 %

I5 => I1 ^ I2, confidence=2/2=100 %

最小置信度阀值为70%，则只有第2、3和最后一个规则可以输出。

频繁集L2={I1, I2, I3}，L2的非空子集有{I1, I2}, {I1, I3}, {I2, I3}, {I1}, {I2}, {I3}

I1^ I2 => I3, confidence=2/4=50%

I1 ^ I3 => I2, confidence=2/4=50 %

I2 ^ I3 => I1, confidence=2/4=50%

I1 => I2 ^ I3, confidence=2/6=33 %

I2 => I1 ^ I3, confidence=2/7=29 %

I3 => I1 ^ I2, confidence=2/6=33 %

无满足情况的。

秃头馍馍粥

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

秃头馍馍粥 CSDN认证博客专家 CSDN认证企业博客

码龄4年

3: 原创

167万+: 周排名

39万+: 总排名

4195: 访问

: 等级

32: 积分

1: 粉丝

2: 获赞

3: 评论

16: 收藏

私信

关注

热门文章

分类专栏

爬虫学习 1篇

最新评论

GMM高斯混合模型结合EM算法实现聚类
CSDN-Ada助手: 恭喜你写了这么一篇深入浅出的博客，非常详细地介绍了GMM高斯混合模型结合EM算法实现聚类。希望你能继续保持创作的热情，分享更多的知识和经验。下一步，建议你可以探讨一下如何应用GMM算法来解决实际问题，这将会更加有趣和具有实践意义。期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
Apriori 算法
CSDN-Ada助手: 很高兴看到你又写了一篇博客，关于Apriori算法的讲解非常清晰，让我对关联规则有了更深入的理解。除了提到的关联规则的两种表现形式和提升度，还有一些扩展知识和技能可以探究，比如FP-Growth算法和关联规则挖掘在电商推荐系统中的应用等。期待你的继续探索和分享，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
初识爬虫以及电影信息爬取案例
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
初识爬虫以及电影信息爬取案例
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/614136979。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

秃头馍馍粥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。