6.2.3 候选的产生与剪枝
(1)候选项集的产生:该操作由前一次迭代发现的频繁项集(k-1)项集产生新的候选k项集
(2)候选项集的剪枝:采用基于支持度的剪枝策略
候选产生过程:
蛮力方法:把所有k项集看作可能候选
F(k-1)*F(1)方法:用其他频繁项集来扩展每一个频繁k-1项集
F(k-1)*F(k-1)方法:合并一对频繁k-1项集,仅当它们的前k-2个项都相同
6.2.4 支持度计数
确定候选项剪枝步骤保留下来的每一个候选项集出现的频繁程度
1.事务匹配
2.事务枚举
使用Hash树进行支持度计数
没看懂
6.2.5 计算复杂度
支持度阈值
项数
事务数
事务的平均宽度
6.3 规则的产生
如何从频繁项集中提取关联规则,由频繁项集产生的关联规则必然满足支持度阈值
6.3.1 基于置信度的剪枝
6.3.2 Apriori算法中规则的产生
初始,提取规则后件只包含一个项的所有高置信度规则,使用这些规则来产生新的候选规则,然后根据定理6.2,剪掉所有低置信度的规则。
6.4 频繁项集的紧凑表示
6.4.1 极大频繁项集
极大频繁项集:它的直接超集都不是频繁的。
极大频繁项集形成了可以导出所有频繁项集的最小的项的集合。
6.4.2 闭频繁项集
提供了频繁项集的一种最小表示,该表示不丢失支持度信息。
6.5 产生频繁项集的其他方法
项集格遍历
等价类
宽度和深度优先
事务数据集的表示