关联规则——基于 Python 的 Apriori 算法实现

Apriori 核心思想:通过连接产生候选项与其支持度,然后通过剪枝生成频繁项集。

关键概念:

  • 项集:项的集合。包含 k 个项的项集称为 k 项集,如{a,s,d}是一个3项集。
  • 支持度:项集A、B同时发生的概率。
  • 最小支持度:项集在统计意义上的最低重要性。
  • 置信度:项集A发生,则项集B发生的概率。
  • 最小置信度:关联规则的最低可靠性。
  • 同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。
  • 项集的支持度计数(绝对支持度):项集的出现频率,即所有包含项集的事务计数。
  • 频繁项集:项集的相对支持度满足预定义的最小支持度阈值

实现步骤:

主要思想:找出存在于事务数据集中的最大的频繁项集,再利用得到的最大频繁项集与预先设定的最小置信度阈值生成强关联规则。

Apriori的性质:频繁项集的所有非空子集也必须是频繁项集。

步骤:

 

  1. 找出所有频繁项集(支持度必须大于等于给定的最小支持度阈值),将连接步和剪枝步互相融合,最终得到最大频繁项集LK

连接步:找到 K 项集。

 

  •                 对给定的最小支持度阈值,分别对 1 项 候选集 C1,剔除小于该阈值的项集得到 1 项频繁集 L1;
  •                 由 L1 自身连接产生2 项候选集 C2,保留 C2 中满足约束条件的项集得到2项频繁集,记为 L2;
  •                 由 L2 与 L3 连接产生 3 项候选集 C3,保留 C3 中满足约束条件的项集得到3项频繁集,记为 L3... ...  依此循环,得到最大频繁项集 Lk;

剪枝步:紧接着连接步,在产生候选项 Ck 的过程中起到减小搜索空间的目的

                由于 Ck 是 L(k-1) 与 LK 连

  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值