假设I是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的
支持度(support)
是D中事务已经包含X的情况下,包含Y的百分比,即
条件概率
;
置信度(confidence)
是D中事务同时包含X、Y的百分比,即
概率
。如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。
关联规则的简单例子
TID
|
网球拍
|
网 球
|
运动鞋
|
羽毛球
|
1
|
1
|
1
|
1
|
0
|
2
|
1
|
1
|
0
|
0
|
3
|
1
|
0
|
0
|
0
|
4
|
1
|
0
|
1
|
0
|
5
|
0
|
1
|
1
|
1
|
6
|
1
|
1
|
0
|
0
|
用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,X∩Y=3, D=6,支持度(X∩Y)/D=0.5;X=5, 置信度(X∩Y)/X=0.6。若给定最小支持度α = 0.5,最小
置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。
算法: