关联规则
https://zhuanlan.zhihu.com/p/118439868
Apriori 算法— 经典算法
看买了这个商品的人买了什么其他一起了。
相关概念
事务集: 所有商品放在一起。
记录:一个单号表示一条记录
项目(项): A, B,C 单独一个商品
项目集 (项集):由项组成的集合
K 项集 : 项集中元素的个数为K,
以下是概率论的内容:
Def 6 支持度(support )
Sup(x) = (某个项集在事务中出现的次数)/ 事务集中记录的总个数
可以理解为概率(频率)。
Def 7 置信度(条件概率)
在x 出现的基础上,Y 出现的概率。
定义:
提升度: A的出现是不是对B的出现有提升度。
lift (A->B) 如果大于1,则说明 B在A发送的基础上比B自己单独发生的可能性大。
则A出现对B发生有积极作用。
两个定理
Theorem 1:如果X是一个频繁K项集, 则它所有的子集一定是频繁的
Theorem 2:如果X不是k-1 项频繁, 则它一定不是频繁K 项集
算法流程
以下是例子:
从K-1到K项, 组合不能随意组,要有K-2项相同
加了预剪枝
下面有关联的关系
分析算法性能