项集与规则
频繁集frequent itemsets
关联规则 association rules
序列模式 sequential patterns
实例:商品拜访
支持度与向量度
support(X)=#X/n
条件概率
最小支持度 最小置信度
步骤:
找到所有频繁项
生成频繁项所有非空子集,校验
误区
关联规则小于先验概率 tape dvd
两个商品概率相差过大 电池,面包
相关不等于因果 冰淇淋和犯罪概率
Apriori算法
重点:任何一个频繁项子集都频繁
一个项不频繁,超项不频繁
步骤:
生成特定大小集合
扫表数据库查频繁项
用频繁项生成大一个集合
迭代
过滤
k->k+1
每项一样,除最后一项
序列模式