基于R的数据挖掘方法与实践(2)——关联规则

关联规则是从庞大的数据中提取一系列变量或因子间关系,以探索数据的变量或项目间隐含的关系。1、基本原理关联规则通常用支持度、置信度、增益三个指标来分别表示其显著性、正确性和价值。通过给性最小支持度、最小置信度作为门槛值。若该规则的支持度与置信度大于门槛值,则说明该规则有助于进行推论;若该规则的增益大于1,则说明其发生的条件概率有比原先的概率提高,即该规则有效。1.1 支持度支持度计算
摘要由CSDN通过智能技术生成

关联规则是从庞大的数据中提取一系列变量或因子间关系,以探索数据的变量或项目间隐含的关系。

1、基本原理

关联规则通常用支持度、置信度、增益三个指标来分别表示其显著性、正确性和价值。通过给性最小支持度、最小置信度作为门槛值。若该规则的支持度与置信度大于门槛值,则说明该规则有助于进行推论;若该规则的增益大于1,则说明其发生的条件概率有比原先的概率提高,即该规则有效。

1.1 支持度

支持度计算公式如下:

支持度 = P(X∩Y)

以下表中的数据为例。

交易记录

牛奶

面包

饼干

橙汁

汽水

泡面

水果

201701101

1

1

1

1

0

0

0

201701102

0

1

1

0

1

1

0

201701103

1

0

1

0

0

0

1

201701104

1

1

0

1

0

1

1

201701105

0

0

1

0

1

0

1

 

要了解顾客同时购买牛奶和面包的规则是否具有显著性,可以通过支持度衡量,即计算顾客同时购买牛奶和面包的概率:

P(面包∩牛奶) = 2/5 = 0.4

1.2 置信度

置信度是衡量一个事件发生的情况下,另一个事件发生的条件概率,即P(Y|X)。

P(Y|X)= P(X∩Y)/P(X)

一般情况下,置信度需要大于0.5。

 

如果想要了解规则“顾客在购买牛奶后也会购买面包”的信心程度,则可以用置信度:

P(面包|牛奶) = P(面包∩牛奶) / P(牛奶) = 0.4/0.6 = 0.67

1.3 增益

增益用于比较置信度与事件Y单独发生两者之间的概率。增益至少要大于1,才能说明事件X对事件Y的发生有促进作用。

lift= P(Y|X)/P(Y) = P(X∩Y)/[P(X)P(Y)]

规则“顾客在购买牛奶后也会购买面包”的增益计算如下:

lift(牛奶 -> 面包) = P(面包|牛奶) / P(面包) = P(面包∩牛奶) / [P(牛奶)P(面包)] = 0.4/[0.6*0.6] = 1.11

2、关联规则的分类

2.1以规则中属性的类型分类

当关联规则中的属性都是布尔值得时候,称为布尔关联规则。上面我们讨论购买面包与牛奶的问题,是典型的布尔关联规则。

当所要描述的规则的属性值是数量的时候,则称为量化的关联规则。对于量化的关联规则,可以通过数值的区间划分和归类

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值