基本概念
规则度量:支持度和置信度
频繁项集、闭项集基本概念
- 项的集合称为项集
- K项集:包含k个项的集合
- {牛奶,面包,黄油}是个3项集 项集的出现频度是指包含项集的事务数
- 如果项集的出现频度大于(最小支持度×D中的事务总 数),则称该项集为频繁项集
- 项集X在数据集D中是闭的,即不存在真超项集Y使得Y 与X在D中具有相同的支持度计数,则项集X是数据集D 中的闭项集
- 闭频繁项集
- 极大频繁项集:该模式的任何真超模式都是非频繁的
由事务数据库挖掘单维布尔关联规则
Apriori算法
原理
如果某个项集是频繁项集,那么它所有的子集也是频繁的。即如果 {0,1} 是频繁的,那么 {0}, {1} 也一定是频繁的
例子
挖掘频繁项集的模式增长方法
- 频繁增长模式适应了分治策略,如下所示:
- 将代表频繁项集的数据库压缩到一颗频繁模式树(FPtree),该树仍保留项集的关联信息。
- 把这种压缩后的数据库分解成一组条件数据库, 每个数 据库关联一个频繁项或“模式段”并且分别挖掘每个条件 数据库
挖掘闭模式和极大模式
- 挖掘方法:
- 挖掘频繁项集的完全集,再删除具有相同支持度且是 某一集合子集的频繁集
- 直接搜索闭频繁项集,但要求一旦识别闭项集就尽快 对搜索空间剪枝,剪枝策略如下:
– 项合并
– 子项集剪枝
– 项跳过