关联算法系列目录:
关联算法①——《啤酒与尿布》购物篮分析
关联算法③——Apriori算法实现主播关联度分析
一、关联规则
关联规则,顾名思义,就是寻找事物之间的关联关系。比如《啤酒与尿布》中,在某个特定时间段,会出现啤酒与尿布同时出现在购物篮中的现象,且出现频率非常高。调研发现这是一群爱喝啤酒的奶爸群体。如果可以通过类似的方式挖掘更多特定的群体需求,就可以进行交叉销售或捆绑销售来提升销售额和利润。Apriori算法就是经典的寻找物品的关联算法。
二、Apriori算法原理
1、基础概念
项集 :包含0个或者多个项的集合称为项集
频繁项集:那些经常一起出现的物品集合
2、关联规则
规则A->B的度量包括支持度,置信度
支持度:项集A、B同时发生的概率 —P(A∩B)
置信度:当A发生时发生B的概率—P(B|A) = P(A∩B)/P(A)
两者都会有一个阈值,支持度低于阈值说明A,B同时出现的概率低,两者有没有关联关系都对实际业务没啥帮助;置信度低于阈值说明A在发生情况下B的发生可能性小,我们想要挖掘的是在A发生时B有很大可能也会发生的情况。
举例:
方便面 -> 火腿肠:{支持度:0.2, 置信度:0.8}
说明方便面和火腿肠同时出现的概率20%,这个概率已经相当高了,而当购买了方便面时,有80%的可能性会购买火腿肠,如果两者分开陈列都能达到这样的效果,那交叉陈列或者捆绑销售肯定会进一步提升置信度。
一般支持度和置信度的阈值设定有2种方法:1是听取行业专家的意见,2是求所有项集的平均值或中位数
3、自连接和剪枝原理
自连接是保证除掉最后一个元素后相同的情况下,将两者求并集得到新的项集。
剪枝步
① 支持度:是使任一频繁项集的