1、筛选数据:数据包括用户编号和用户购买产品
2、引入频繁项集,支持度,置信度,提升度这四个概念
频繁项集:出现频次比较多的数据组合
a) A
b) AC
c) AB
d) ABC
支持度:频繁项集出现的概率
a) A: 5/9
b) B: 4/9
c) C:7/9
d) D:2/9
e) AB:2/9
f) AC:4/9
g) AD:2/9
h) BC:2/9
i) BD:NAN
j) CD:2/9
置信度:示例
购买A产品然后购买B产品的概率为多少?
解法:P(AB)/P(B)= (2/9) / (4/9) = 0.5
购买B产品然后购买A产品的概率为多少?
解法:P(AB)/P(A)= (2/9) / (5/9) =0.4
提升度:探究两个物品之间的相关性
提升度<1:负相关 表示:购买的两种产品负相关 购买了A大概率不会购买B
提升度=1:没关系 表示:购买的两种产品没关系 购买了A与购买B没啥关联
提升度>1: 正相关 表示: 购买的两种产品正相关 购买了A大概率会购买B
示例:探究购买A产品之后是否会购买B产品
提升度= (购买A产品然后购买B产品的概率) / (单独购买B产品的概率)