目录
一、关联挖掘的定义
关联挖掘定义为根据事务中其他项的出现情况预测其他项出现的概率。
其输入一般为:
(1)事务数据库
(2)支持度、置信度
输出为:所有表示共同出现项的规则。
二、关联规则
2.1规则的定义
如下表达式X->Y,X、Y是项集(itemsets)。如下图事务数据库:
则关联规则为:{Milk,Diaper}->{Beer}。
2.2评估规则的度量
- 支持度(s):事务中包含X和Y的比率。
- 置信度(c):Y出现在包含X的事务中的比率。
对于上述的事务数据库,我们计算关联规则{Milk,Diaper}->{Beer}的支持度和置信度:
三、频繁项集
3.1项集
一个或多个项的集合。
k-itemset即代表包含k个项的项集。
3.2支持度计数()
即项目集出现的频率次数,比如:
3.3支持度
即项目集出现的比例,比如:
3.4频繁项集
即支持度大于或者等于minsup的项集