Python机器学习算法 — 关联规则(Apriori、FP-growth)

本文介绍了关联规则挖掘的基础知识,包括Apriori算法和FP-growth算法。Apriori算法通过频繁项集挖掘和递推方式查找关联规则,而FP-growth算法通过构建FP树来高效处理大数据集,提高挖掘效率。关联规则的核心指标是支持度和置信度,用于评估规则的强度。这两种算法在市场分析、网络安全、高校管理和移动通信等领域有广泛应用。
摘要由CSDN通过智能技术生成

关联规则 -- 简介

        关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现,而非预测,所以是属于无监督的机器学习方法。
        Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
        关联规则的一般步骤:
              1、找到频繁集;
              2、在频繁集中通过可信度筛选获得关联规则。
        关联规则应用:
              1、Apriori算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯,比如较有名的“尿布和啤酒”的故事;
              2、网络安全领域中的入侵检测技术;
              3、可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;
              4、也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。
        关联规则算法的主要应用是购物篮分析,是为了从大量的订单中发现商品潜在的关联。其中常用的一个算法叫Apriori先验算法。

关联规则 -- 概念

        关联分析(Association Analysis):在大规模数据集中寻找有趣的关系。
        频繁项集(Frequent Item Sets):经常出现在一块的物品的集合,即包含0个或者多个项的集合称为项集。
        支持度(Support):数据集中包含该项集的记录所占的比例,是针对项集来说的。
        置信度(Confidence):出现某些物品时,另外一些物品必定出现的概率,针对规则而言。
        关联规则(Association Rules):暗示两个物品之间可能存在很强的关系。形如A->B的表达式,规则A->B的度量包括支持度和置信度
        项集支持度:一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度
        支持度反映了A和B同时出现的概率,关联规则的支持度等于频繁集的支持度。
        项集置信度:包含A的数据集中包含B的百分比

        置信度反映了如果交易中包含A,则交易包含B的概率。也可以称为在A发生的条件下,发生B的概率,成为条件概率。
        只有支持度和置信度(可信度)较高的关联规则才是用户感兴趣的。

关联规则 --支持度和置信度

1、支持度(Support)
        支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
        支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。

2、可信度(Confidence)
        置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B否出现关系不大。
        置信度: P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。

3、设定合理的支持度和置信度

        对于某条规则:(
  • 4
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值