数据挖掘之关联规则挖掘
标签:数据挖掘
关联规则挖掘研究有助于发现交易数据库中不同商品项之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果应用与商品货架布局,货存安排以及根据购买模式对用户进行分类。
关联规则挖掘问题可以分为两个子问题:
- 找出事务数据库中所有大于等于用户指定的最小支持度的数据项集。
- 利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。
概念解析
先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:
t1: 牛肉、鸡肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、鸡肉、奶酪
t5: 牛肉、鸡肉、衣服、奶酪、牛奶
t6: 鸡肉、衣服、牛奶
t7: 鸡肉、牛奶、衣服
- 项与项集:一件商品可以称为一个项,多个商品组成一个集合叫项集。
- 事务:一次购买记录可以称为一个事务。
- 项集的频数(支持度计数):包含了该项集的频数。
- 关联规则:形如X——>Y,比如规则牛肉—>鸡肉。
- 支持度:同时购买牛肉和鸡肉的顾客比例是3/7,在关联规则中称作支持度(support)。
- 置信度:购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4,在关联规则中称作置信度(confidence)。
- 最小支持度和最小置信度:就是一般用户会指定关联规则需要满足的支持度和置信度的阈值(边界值)。
- 强关联规则:从事务集合中挖掘出满足支持度和置信度最低阈值要求的所有关联规则,这样的关联规则也称强关联规则。
- 频繁项:满足最小支持度的项集叫频繁项。
- 项目集空间理论:频繁项目集的子集仍是频繁项目集,非频繁项目集的父集仍是非频繁项目集。