主要的指标包括:支持度support,置信度confidence,提升度lift。对于一个二项规则例如“A→B”,支持度是指A与B同时出现的概率,即P(A B);置信度是B关于A的条件概率,即P(B | A);提升度是B的概率的提升,即P(B | A) / P(B)。
频繁项集:
闭集
极大频繁项集
apriori算法:
- fp-growth 为什么是从支持度从小到大分配(想出来好几次都忘了,次哦):
原因1: 支持度小的相比一定长,这样能很好的分离出闭集,也就是绝对不会产生重复的频繁项集.
原因2:支持度大的,还分配多的,容易reduce端倾斜,而且分离效果没那么好
举例: 1234 123 12 :
从多到少:
1234 123 12
234 23
34
从少到多:
4321
321 321
21 21 21