数据挖掘之关联规则挖掘

数据挖掘之关联规则挖掘

标签:数据挖掘


关联规则挖掘研究有助于发现交易数据库中不同商品项之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果应用与商品货架布局,货存安排以及根据购买模式对用户进行分类。

关联规则挖掘问题可以分为两个子问题:
  1. 找出事务数据库中所有大于等于用户指定的最小支持度的数据项集。
  2. 利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。
概念解析

先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:

t1: 牛肉、鸡肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、鸡肉、奶酪
t5: 牛肉、鸡肉、衣服、奶酪、牛奶
t6: 鸡肉、衣服、牛奶
t7: 鸡肉、牛奶、衣服
  1. 项与项集:一件商品可以称为一个项,多个商品组成一个集合叫项集。
  2. 事务:一次购买记录可以称为一个事务。
  3. 项集的频数(支持度计数):包含了该项集的频数。
  4. 关联规则:形如X——>Y,比如规则牛肉—>鸡肉。
  5. 支持度:同时购买牛肉和鸡肉的顾客比例是3/7,在关联规则中称作支持度(support)。
  6. 置信度:购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4,在关联规则中称作置信度(confidence)。
  7. 最小支持度和最小置信度:就是一般用户会指定关联规则需要满足的支持度和置信度的阈值(边界值)。
  8. 强关联规则:从事务集合中挖掘出满足支持度和置信度最低阈值要求的所有关联规则,这样的关联规则也称强关联规则。
  9. 频繁项:满足最小支持度的项集叫频繁项。
  10. 项目集空间理论:频繁项目集的子集仍是频繁项目集,非频繁项目集的父集仍是非频繁项目集。
Apriori算法流程
点击流程图放大
Created with Raphaël 2.1.0
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值