根据
韩家炜等观点,关联规则定义为:
假设
标识符TID(Transaction ID)对应。关联规则在D中的
支持度(support)是D中事务同时包含X、Y的百分比,即
概率;
置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即
条件概率。如果满足
最小支持度阈值和
最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
是
项的集合。给定一个交易数据库D,其中每个
事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的
例子
TID
|
网球拍
|
网 球
|
运动鞋
|
羽毛球
|
1
|
1
|
1
|
1
|
0
|
2
|
1
|
1
|
0
|
0
|
3
|
1
|
0
|
0
|
0
|
4
|
1
|
0
|
1
|
0
|
5
|
0
|
1
|
1
|
1
|
6
|
1
|
1
|
0
|
0
|
用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小
置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。
基于以上内容的理解:
例子的问题是购买网球拍的人同时购买网球是否存关联?---------------------------Q1
何为存在关联?
我们认为满足给定的最小置信度和最小支持度则存在关联。
那我们给定的最小支持度和最小置信度又分别是多少?
何为最小支持度?何为最小置信度?如何求?
这就要简单介绍基本概念了。
项集:物品集
交易数据库D:交易集(事务集)
同时满足最小支持度
和最小置信度
的规则称为
强关联规则。为了方便计算,用 0%到 100%之间的代替 0 到 1 之间的值表示
支持度和置信度。
支持度和置信度。
如果项集满足最小支持度,则称之为频繁项集。
频繁k −项集的集合通常记为L
k。
由Q1可确定,我们应该计算的是频繁二项集(
网球拍和网球)。
那到底什么是最小支持度和最小置信度呢?
设X为包含网球拍的事务集(1,2,3,4,6),Y为包含网球的事务集(1,2,6),则
X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。
所以,我们给定最小支持度为0.5,最小置信度为0.6
我们假定本例子的数据(交易数据库D)为训练集,通过训练集我们给定了最小支持度和最小置信度。
接着,我们对测试集进行测试验证,计算得到网球拍=>网球的置信度和支持度,若同时大于最小置信度和最小支持度,我们则认为二者存在关联。