关联算法②——Apriori算法原理及python实现

关联算法系列目录
关联算法①——《啤酒与尿布》购物篮分析
关联算法③——Apriori算法实现主播关联度分析

一、关联规则

关联规则,顾名思义,就是寻找事物之间的关联关系。比如《啤酒与尿布》中,在某个特定时间段,会出现啤酒与尿布同时出现在购物篮中的现象,且出现频率非常高。调研发现这是一群爱喝啤酒的奶爸群体。如果可以通过类似的方式挖掘更多特定的群体需求,就可以进行交叉销售或捆绑销售来提升销售额和利润。Apriori算法就是经典的寻找物品的关联算法。

二、Apriori算法原理

1、基础概念
项集 :包含0个或者多个项的集合称为项集
频繁项集:那些经常一起出现的物品集合

2、关联规则
规则A->B的度量包括支持度,置信度
支持度:项集A、B同时发生的概率 —P(A∩B)
置信度:当A发生时发生B的概率—P(B|A) = P(A∩B)/P(A)
两者都会有一个阈值,支持度低于阈值说明A,B同时出现的概率低,两者有没有关联关系都对实际业务没啥帮助;置信度低于阈值说明A在发生情况下B的发生可能性小,我们想要挖掘的是在A发生时B有很大可能也会发生的情况。
举例:
方便面 -> 火腿肠:{支持度:0.2, 置信度:0.8}
说明方便面和火腿肠同时出现的概率20%,这个概率已经相当高了,而当购买了方便面时,有80%的可能性会购买火腿肠,如果两者分开陈列都能达到这样的效果,那交叉陈列或者捆绑销售肯定会进一步提升置信度。

一般支持度和置信度的阈值设定有2种方法:1是听取行业专家的意见,2是求所有项集的平均值或中位数

3、自连接和剪枝原理

自连接是保证除掉最后一个元素后相同的情况下,将两者求并集得到新的项集。
剪枝步
① 支持度:是使任一频繁项集的

  • 8
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值