【机器学习】关联规则(又称频繁模式挖掘)

关联规则是数据挖掘中的一个重要概念,用于发现数据集中频繁出现的模式。本文介绍了关联规则的基础概念,包括项目、项集、频繁模式、支持度和置信度,并详细阐述了Apriori和FP-growth两种算法的原理和性能对比。此外,还探讨了模式评估的多种方法,如提升度、χ2系数等。
摘要由CSDN通过智能技术生成

#介绍
关联规则又称频繁模式挖掘,旨在搜索给定数据集中反复出现的联系。啤酒与尿布的故事太过于经典了,做数据处理的同学应该都听说过这个故事,这个故事其实是BI产品编造出来的数据“神话”,但是算法本质原理还是值得研究的。这个故事也就是说把有关联的东西放在一起,可以方便顾客的购买。
一般,关联规则可以应用的场景有:

  • 优化货架商品摆放或者优化邮寄商品的目录
  • 交叉销售或者捆绑销售
  • 搜索词推荐或者识别异常
    #基础概念
  • 项目:数据集中的一个元数据,对超市的交易来说一般是指交易中的一个物品,如啤酒;
  • 项集:若干项目的集合,如{啤酒,尿布};
  • 频繁模式:频繁地出现在数据集中的模式;
  • 频繁项集:频繁地同时出现在数据集中的项目集合;
  • 支持度:项集在总数据集中出现的概率;
  • 置信度:在条件X下,根据规则{X->Y}推导出Y的概率;
  • 提升度:是一种简单的相关性度量,可以用来评价所发现模式的相关性。
    #实现过程
    实现过程也是按照上面三个度进行:首先在数据集中找到频繁项集,即满足最小支持度的项集;然后计算是否符合强关联规则,即满足最小置信度;最后验证筛选有效的强关联规则,即提升度>1。
    支持度是在全部数据集中,{A,B}同时出现的概率;置信度是条件A下,同时发生B的概率,公式可表示如下:
    s u p p o r t ( A = > B ) = P ( A ∪ B ) support(A=>B) = P(A\cup B) support(A=>B)=P(AB)
    c o n f i d e n c e ( A = > B ) = P ( B ∣ A ) = s u p p o r t ( A ∪ B ) s u p p o r t ( A ) = s u p p o r t _ c o u n t ( A ∪ B ) s u p p o r t _ c o u n t ( A ) confidence(A=>B) = P(B|A) = \frac{support(A\cup B)}{support(A)} = \frac{support\_count(A\cup B)}{support\_count(A)} confidence(A=>B)=P(BA)=support(A)support(AB)=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值