机器学习(十二)
关联规则
基本概念:
啤酒与尿布的故事
关联规律挖掘:从交易数据中发现:买了X 还会买Y 的规则
关联规律挖掘‘购物篮分析’Market Basket Analysis(MBA)
关联规律->应用于推荐系统
通过数据的关联性进行分析挖掘,适合用于大数据样本中。
项集:包含0个或多个项的集合。包含k个项就是一个k项集
事务:表示事件
(比如每次去商场购买东西是一次事务,而实际购买到的东西就是项集)
关联规则的三个计算:
- 支持度 support
- 置信度 confidence
- 提升度 lift
公式计算:
1.支持度
全部事务中,项集中{X,Y}同时出现的概率:
2.置信度
在关联规则的先决条件 X 发生的条件下,关联结果Y发生的概率。
即含有X的项集条件下,同时含有Y的可能性:
3.提升度
表示在含有 X 的条件下同时含有 Y 的可能性与无条件下含有Y的可能性之比。
即在Y的自身出现的可能性P(Y)的基础上,X的出现对于Y的“出镜率” P(Y/X)的提升程度: