Apriori适用于什么场景?
Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。
例如什么商品集合顾客会在同一次购物中购买?最著名的例子莫过于啤酒与尿布的故事。看似两个无关的商品,沃尔玛却发现它们经常被一起购买。这是为什么呢?
沃尔玛经过分析后发现,美国的家庭主妇们经常会让她们的丈夫在回家的路上顺道买一些尿布给孩子用,而这些丈夫们辛苦工作了一天也想犒劳一下自己,于是在买尿布之余也给捎带上了自己最爱的啤酒。这就是著名的啤酒与尿布的故事。
研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长。而Apriori就是用来挖掘数据关联规则最经典的算法。
Apriori算法是什么?
介绍 Apriori算法之前需要先介绍几个概念。频繁项集,支持度(Support)和置信度(confidence)。
支持度(Support)
关联规则A->B的支持度support=P(AB),指的是事件A和事件B同时发生的概率(相当于联合概率)。
同理多个事件的支持度等于,多个时间同时发生的概率。
在实际使用过程中