关联规则的定义:
支持度和置信度的定义:
支持度和置信度的作用:
Frequent Itemsets and Strong Rules(频繁集和强规则)
关联规则问题:
Itemset Generation
传统的遍历所有节点的方法,势必会产生大量无用项。
The Apriori Method
Apriori算法的核心思想:
频繁集的子集一定是频繁的
非频繁集的超集一定是非频繁的
剪枝处理
过程描述
给定一组特定大小的项集
扫描数据库找出其中的频繁项集
使用找到的频繁项集生成比原来的频繁项集多一个元素的候选项集。返回上一步继续执行。
Attention
需要多次扫描数据库
有效的索引方式(Hash,BitMap)能增强检索速度。
伪代码描述
/*
* C(k):长度为k的候选项集
* L(k):长度为k的频繁项集
*/
L(1) = {frequent items}
for(k=1;L(k)!=NULL;k++)
C(k+1) <- candidate(L(k))
for each transaction t
Q = {c|c∈C(k+1)∧c∈t}
count[c] += 1 ,∀c∈Q
end for
L(k+1) = {c|c∈C(k+1)}∧count[c]/N≥σ}
end for
return all the L