1.挖掘频繁模式、关联和相关性
动机:寻找数据的内在规律
- 什么样的产品会经常在一起购买?
- 当购买一台电脑后,后续会有哪些购买行为?
- 数据离散化是一种数据变换形式。
- 数据变换策略概述
- 通过规范化变换数据-
- 通过分箱离散化
- 通过直方图分析离散化
- 通过聚类、决策树和相关分析离散化
- 标称数据的概念分层产生
应用
- 挖掘数据之间的关联、相关性、和其他有趣的联系,及购物篮分析, 交差营销, 价目表设置,销售活动分析, 网络点击量分析。
2 频繁模式分析
- 购物篮分析:一个诱发例子
- 频繁项集、闭项集和关联规则
3 购物篮分析:一个诱发例子
经典的案例:啤酒和尿布的故事
-
20世纪90年代美国的一家大型超市发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。
-
超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。
频繁模式:制定营销计划来提高销售量 -
对商店的顾客事务零售数据进行分析
-
根据得到的有趣的关联设计营销策略:
- 经常同时购买的商品摆放在一起,一遍刺激这些商品同时销售
- 将同时购买的商品放在商店的两端,可以诱发顾客购买沿途看到的商品(可以通过降价吸引顾客)。
购物篮分析
-
如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示(如形式0001001100);经过分析就可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示。
-
关联规则的两个兴趣度度量
computer=>financial_management_software[support=2%.confidence=60%]- 支持度:有用性;指两者被同时购买的概率
- 置信度:确定性;指购买A的顾客也购买B产品的概率
4 频繁项集、闭项集和关联规则
频繁项集
- 项集
- 包含0个或多个项的集合
- k-项集:一个项集包含k个项
- 支持度(Support)
- 包含项集的事务数与总事务数的比值
- s({Milk, Bread, Diaper}) = 2/5
- 频繁项集
- 满足最小支持度阈值 的所有项集
- 例子
s({Milk, Bread}) = 3/5
s({Bread,Milk,Diaper,Beer}) = 1/5
s({Bread,Milk,Diaper,Coke}) = 1/5
简单来说,就是如果这个频繁项集的支持度和所有包含这个频繁项集的超级的支持度不一样,那么这个频繁项集就是闭频繁项集。
规则度量
- A->B
- 支持度:P(A ∩ B),既有A又有B的概率
- 置信度:P(B|A),在A发生的事件中同时发生B的概率 p(AB)/P(A)
- 例子:购物篮分析:牛奶->面包
- 支持度3%:意味着3%顾客同时购买牛奶和面包
- 置信度40%:意味着购买牛奶的顾客40%也购买面包
关联规则挖掘问题
- 给定事务的集合 T, 关联规则发现是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有规则, minsup和minconf是对应的支持度和置信度阈值。
- 大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:
- 频繁项集产生(Frequent Itemset Generation)
- 其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。
- 规则的产生(Rule Generation)
- 其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。
- 频繁项集产生(Frequent Itemset Generation)
5 总结
频繁模式分析
- 找出给定数据集中反复出现的联系
- 从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、项与项之间的关联或相关性
频繁模式(关联规则)挖掘
- 购物篮分析:一个诱发例子
- 频繁项集、闭项集和关联规则
频繁模式(关联规则)挖掘
- 给定事务的集合 T, 关联规则发现是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有规则, minsup和minconf是对应的支持度和置信度阈值。
式(关联规则)挖掘**
- 给定事务的集合 T, 关联规则发现是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有规则, minsup和minconf是对应的支持度和置信度阈值。