内容目录
一、Apriori算法及相关概念介绍二、Apriori算法步骤及原理三、Python 实现原文见公众号:python宝
一、Apriori算法及相关概念介绍
Apriori是一种流行的算法,用于在关联规则学习中提取频繁项集。Apriori算法被设计用于对包含交易的数据库进行操作,例如商店客户的购买。如果项目集满足用户指定的支持阈值,则该项目集被视为“频繁”。例如,如果支持度阈值设置为0.5(50%),则频繁项目集被定义为在数据库中所有事务的至少50%中一起发生的项目集合。
支持度(support):support(A=>B) = P(A∪B),表示A和B同时出现的概率。支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率。一般来说,支持度高的数据不一定构成频繁项集,但是支持度太低的数据肯定不构成频繁项集。
a) 如果我们有两个想分析关联性的数据X和Y,则对应的支持度为:
b) 如果我们有三个想分析关联性的数据X,Y和Z,则对应的支持度为:
置信度(confidence):confidence(A=>B)=support(A∪B) / support(A),表示A和B同时 出现的概率占A出现概率的比值。置信度体现了一个数据出现后,另一个数据出现的概率,或者说数据的条件概率。
a) 如果我们有两个想分析关联性的数据X和Y,X对Y的置信度为:
b) 对于三个数据X,Y,Z,则X对于Y和Z的置信度为:
频繁项集:在项集中频繁出现并满足最小支持度阈值的集合,例如{牛奶,面包}、{手机,手机壳}等。
强关联规则:满足最小支持度和最小至此年度的关联规则。