逻辑清晰的Apriori 算法介绍与代码实现

Apriori算法是一种经典的数据挖掘关联规则算法,通过支持度、置信度和提升度衡量数据相关性。文章介绍了算法原理,包括频繁项集、强关联规则等,并通过一个例子展示了如何找到频繁项集并计算置信度和提升度。最后提到了Apriori算法的优劣,指出其内存消耗问题,并提及Fp-growth算法作为进阶选项。
摘要由CSDN通过智能技术生成


本文针对的对象是大概知道什么是 Apriori算法,但是还比较迷糊的读者。

Apriori算法的介绍

Apriori,翻译为“先验的”。顾名思义,是利用已知的数据来获取规律的数据挖掘关联算法。它通过“支持度”,“可信度”,“提升度”三个指标来衡量数据的相关性。首先通过“支持度”获得“频繁项集”,接着由“可信度”和“提升度”对“频繁项集”进行衡量,得到最终的结果“强关联规则”。接下来分别对支持度,可信度,提升度,频繁项集和强关联规则进行说明,并举一个简单的例子便于理解。

支持度

一个表示概率的指标,对于事物A来说,A的支持度为事物A发生的概率,公式表示为:
s u p p o r t ( A ) = P ( A ) support(A) = P(A) support(A)=P(A)
对于两个事物A和B来说,A与B的支持度就是A和B同时发生的概率。公式表示为:
s u p p o r t ( A B ) = P ( A B ) support(AB) = P(AB) support(AB)=P(AB)
PS:就是简单的概率公式

频繁项集

一般地,在实际中为了筛选数据,我们会对支持度有一个规定。当一条数据满足最小支持度的时候,我们就说,它是一个频繁项,他们构成的集合称为频繁项集。具体请看接下来的例子。

置信度

同样是一个表示概率的指标,对于事物A和B来说,A对B的置信度就是A和B同时发生的概率与A出现概率的比值。公式表示为:
c o n f i d e n c e ( A ⇒ B ) = s u p p o r t ( A B ) s u p p o r t ( A ) confidence(A\Rightarrow B)= \frac{support(AB)} {support(A)} confidence(AB)=

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值