构建关联规则模型:
顾名思义,寻找两个事物的关联性
- 属于无监督学习方法
- 用来发现隐藏在大型数据集中的有意义的联系
- 主要应用于商品摆放、交叉销售、医疗诊断、气象预测、金融分析、网页挖掘等
在进行关联规则分析时,大型数据集中很多规则可能只是偶然发生的,不具有指导意义,为了从中寻找强度更高的关联,需要给定一定的选择标准,该标准主要有2个,分别是支持度和置信度
支持度:
Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
置信度:
Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。
常用的关联规则算法有以下:
- Apriori算法
- FP-Growth算法
Apriori算法:
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这