数据挖掘主要就是对强规则的挖掘。通过设置最小支持度和最小置信度可以了解某些数据之间相关联的强度。强规则X→Y对应的项集(XUY)必定是频繁集。
一般把规关联规则划分为两部分问题:根据最小支持度找出事务集的所有频繁项集,之后就可以根据频繁项集和最小置信度来挖掘出关联规则。
举例: 商品事务如下
1 购买A,B,C
2 购买A,C
3 购买A,D
4 购买B,E,F
分析:I ={A,B,C,D,E,F} D1={A,B,C} D2={A,C} D3={A,D} D4={B,E,F}
其中4个事务中包含 AC两个元素的事务有D1和D2
所以A->C 和C->A的最小支持度都是百分之50
A->C的最小置信度=事务(包含A和C)/事务(包含A)=2/3
C->A的最小置信度=事务(包含A和C)/事务(包含C)=100%