基本概念
事务:每一个记录
项:记录中的每一个
项集:项的组合构成一个项集
支持度:同时出现的概率,P(AB)
置信度: P(B | A)
发现有意义的规则: 最小支持度和最小置信度
挖掘步骤
1.数据预处理
2.发现频繁项目集: 使用最小支持度进行筛选
3.由频繁项目生成关联规则: 满足最小置信度
4.对关联规则分析
降低计算量
减少候选项集: 频繁项集的子集也是频繁的 ,非频繁集的超集也是非频繁的
构造hash树,不是和每个事务对比
频繁模式增长 FB树
基本算法
1. 多循环方式的挖掘算法
2. 增量式更新算法
3. 并行发现算法
4. 多层关联规则: 把小概念项的概念进行提升,如蒙牛提升为牛奶
5. 量化属性关联规则: 转换为布尔类型
6. 基于约束的关联规则