1.1 关联规则的含义
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和置信度。
1.2 支持度和置信度的定义
- 支持度support:用来确定给定数据集的频繁程度,即给定数据集在所有数据集中出现的频率。如support(X,Y)=P(X,Y)/N
- 置信度confidence:用来确定Y在包含X的事务中出现的频繁程度。如confidence(X->Y)=P(X,Y)/P(X)
1.3 支持度和置信度的意义
支持度:如果很低的话,代表这个规则其实是偶然出现,基本上没有意义。因此,支持度通常用来删除那些无意义的规则。
置信度:只有置信度越高,Y出现在包含X的事务中的概率菜越大。
1.4 支持度和置信度的缺点
还是以上面的1000个交易记录为例子,500个交易包含购买商品A,700个交易包含购买商品B,300个交易同时包含购买A、B商品。Support(AB)=0.3,且Confidence(A==>B)= 0.6。不管支持度和置信度看上去都很高。但是这样的关联规则是有问题的。
Confidence(A==>B)= 0.6表示用户在购买了商品A后有0.6的概率的去购买商品B,而在没有任何前提条件时,用户反而有(700/1000=0.7)的概率去购买商品B,也就是说在购买了商品A的条件反而会降低用户去购买商品B的概率。这样看来使用(A==>B)这条规则来进行推荐,还不如不推荐,随机对顾客推荐好了。为此,引入另外一个量,即提升度(Lift),以度量此规则是否可用。
也就是说这lift指标表示了一条关联规则是否有效,这里表示度量(A==>B)这条规则有效程度的值为1.32。满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。
如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。
如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。
特别地,如果Lift(X→Y) =1,则表示X与Y相互独立