目的:两个属性是否相关联的研究
物品集I里面是物品,事务集
事务T支持物品集A:这个事务中包含此物品
支持度
物品A的支持度:1000个顾客购物,200个买了面包,支持度20%(200/1000)
关联规则A->B的支持度(联合概率):1000个顾客购物,100个购买了面包和黄油。则面包->黄油 10%
可信度
关联规则A->B的可信度(条件概率):1000个顾客购物,200个购买了面包,140个购买了面包和黄油,则可信度为70%(140/200)
A->B的支持度和B->A的支持度一样,可信度不同。
规则度量
最小支持度minsup:关联规则必须满足的最小支持度
最小可信度minconf:关联规则必须满足的最小可信度
大项集
频繁项集:支持度不小于minsup的物品集
最大频繁项目集:频繁集中挑选出所有不被其他元素包含的平凡项目集。
关联规则发现任务
事务数据库D,满足最小支持度和最小可信度的关联规则
1)求D中满足最小支持度的所有频繁集(Apriori算法和FP树都是找频繁集的算法)。大于支持度
2)利用频繁集生成满足最小可信度的所有关联规则。大于可信度
高效求出频繁集:生成长度为1的L[1];L[k]的基础上生成候选物品集C[k+1],候选物品集必须保证包括所有的频繁项集。