一.Apriori算法
1.1 支持度计数:项集在数据库事务中出现的事务个数,2项集就是,两个同时出现的事务个数,以此类推。
1.2 支持度(sup):用支持度计数除以除以事务总数,tid有几个事务就有几个。
1.3 最小支持度(minsup):题目规定的最小的支持度,sup>=minsup。
1.4 频繁项集:支持度大于minsup的项集。
1.5 关联支持度计数:sup(A->B)等于A和B的集合的支持度计数除以事务总数。
1.6 置信度:con(A->B)等于A和B的集合支持度计数除以A的支持度计数
1.7 Apriori算法实现:先找出所有的一项集,然后将一项集组合形成二项集,以此规律形成三项集,三相集的子集不能是非频繁的,非频繁的除去。uo
1.8 关联规则中的提升度:lift(A,B)等于con(A->B)除以sup(B),对于二元属性,我们有I(A,B)=lift(A,B)等于事务总数N乘以AB集合的支持度计数,除以A合B的支持度计数的乘积,当lift的值等于1时,我们说A和B是独立的,小于1时我们说A和B是负相关的,大于1时我们说是正相关的。
二.FP-Growth算法
实现:树的根节点设置为null,先得到一项集,得到支持度计数,将原有的事务数据库中的事务,按照支持度进行排列,除去非频繁项。然后用每个事务作为树的节点进行扫描,每个节点包括他在该路径的计数,每个相同项计数相加等于该项的支持度计数。