一,概念
表1某超市的交易数据库
交易号TID
顾客购买的商品
交易号TID
顾客购买的商品
T1
面包,奶油,牛奶,茶
T6
面包,茶
T2
面包,奶油,牛奶
T7
啤酒,牛奶,茶
T3
蛋糕,牛奶
T8
面包,茶
T4
牛奶,茶叶 T9
面包,奶油,牛奶,茶
T5
面包,蛋糕,牛奶
T10
面包,牛奶,茶
定义一:
设I = {i1,i2,…,im},是m个不同的项目的集合,每个ik称为一个项目。项目的集合我称为项集。其元素的个数称为项集的长度,长度为k的项集称为k-项集。引例中每个商品就是一个项目,项集为I = {面包,啤酒,蛋糕,奶油,牛奶,茶},我的长度为6.
定义二:
每笔交易T是项集I的一个子集。对应每一个交易有一个唯一标识交易号,记作TID。交易全体构成了交易数据库D,|D|等于D中交易的个数。引例中包含10笔交易,因此|D|=10。
定义三:
对于项集X,设定count(X⊆T)为交易集D中包含X的交易的数量,则项集X的支持度为:s u p p o r t ( X ) = c o u n t ( X ⊆ T ) / ∣ D ∣ support(X)=count(X⊆T)/|D|support(X)=count(X⊆T)/∣D∣
引例中X={bread, milk}出现在T1,T2,T5,T9和T10中,所以支持度为0.5。
定义四:
最小支持度是项集的最小支持阀值,记为SUPmin,代表了用户关心的关联规则的最低重要性。支持度不小于SUPmin 的项集称为频繁集,长度为k的频繁集称为k-频繁集。如果设定SUPmin为0.3,引例中{bread, milk}的支持度是0.5,所以是2-频繁集。
定义五:
关联规则是一个蕴含式:R : X ⇒ Y R:X⇒YR:X⇒Y
其中X⊂I,Y⊂I,并且X∩Y=⌀。表示项集X在某一交易中出现,则导致Y以某一概率也会出现。用户关心的关联规则,可以用两个标准来衡量:支持度和可信度。
定义六:
关联规则R的支持度是交易集同时包含X和Y的交易数与|D|之比。即:
s u p p o r t ( X ⇒ Y ) = c o u n t ( X ⋂ Y ) / ∣ D ∣ support(X⇒Y)=count(X⋃Y)/|D|support(X⇒Y)=count(X⋂Y)/∣D∣
支持度反映了X、Y同时出现的概率。关联规则的支持度等于频繁集的支持度。
定义七: