关联规则是从庞大的数据中提取一系列变量或因子间关系,以探索数据的变量或项目间隐含的关系。
1、基本原理
关联规则通常用支持度、置信度、增益三个指标来分别表示其显著性、正确性和价值。通过给性最小支持度、最小置信度作为门槛值。若该规则的支持度与置信度大于门槛值,则说明该规则有助于进行推论;若该规则的增益大于1,则说明其发生的条件概率有比原先的概率提高,即该规则有效。
1.1 支持度
支持度计算公式如下:
支持度 = P(X∩Y)
以下表中的数据为例。
交易记录 |
牛奶 |
面包 |
饼干 |
橙汁 |
汽水 |
泡面 |
水果 |
201701101 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
201701102 |
0 |
1 |
1 |
0 |
1 |
1 |
0 |
201701103 |
1 |
0 |
1 |
0 |
0 |
0 |
1 |
201701104 |
1 |
1 |
0 |
1 |
0 |
1 |
1 |
201701105 |
0 |
0 |
1 |
0 |
1 |
0 |
1 |
要了解顾客同时购买牛奶和面包的规则是否具有显著性,可以通过支持度衡量,即计算顾客同时购买牛奶和面包的概率:
P(面包∩牛奶) = 2/5 = 0.4
1.2 置信度
置信度是衡量一个事件发生的情况下,另一个事件发生的条件概率,即P(Y|X)。
P(Y|X)= P(X∩Y)/P(X)
一般情况下,置信度需要大于0.5。
如果想要了解规则“顾客在购买牛奶后也会购买面包”的信心程度,则可以用置信度:
P(面包|牛奶) = P(面包∩牛奶) / P(牛奶) = 0.4/0.6 = 0.67
1.3 增益
增益用于比较置信度与事件Y单独发生两者之间的概率。增益至少要大于1,才能说明事件X对事件Y的发生有促进作用。
lift= P(Y|X)/P(Y) = P(X∩Y)/[P(X)P(Y)]
规则“顾客在购买牛奶后也会购买面包”的增益计算如下:
lift(牛奶 -> 面包) = P(面包|牛奶) / P(面包) = P(面包∩牛奶) / [P(牛奶)P(面包)] = 0.4/[0.6*0.6] = 1.11
2、关联规则的分类
2.1以规则中属性的类型分类
当关联规则中的属性都是布尔值得时候,称为布尔关联规则。上面我们讨论购买面包与牛奶的问题,是典型的布尔关联规则。
当所要描述的规则的属性值是数量的时候,则称为量化的关联规则。对于量化的关联规则,可以通过数值的区间划分和归类