一、关联规则原理:
1、概述:
关联规则算法是在一堆数据集中寻找数据之间的某种关联,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集、关联规则。
- 频繁项集:经常出现在一块的物品的集合。
- 关联规则:暗示两种物品之间可能存在很强的关系。
关联分析典型的例子,沃尔玛超市啤酒于尿不湿的关联分析。例如:购物篮数据
订单编号 | 购买商品集合 |
001 | 羽毛球拍,羽毛球 |
002 | 羽毛球,球网,纸巾,矿泉水 |
003 | 羽毛球拍,球网,纸巾,红牛 |
004 | 羽毛球,羽毛球拍,球网,纸巾 |
005 | 羽毛球,羽毛球拍,球网,红牛 |
名词定义:
- 事物:每一个订单被称为一个事物,上表包含5个事物;
- 项:订单中的每一个物品被称为一个项;
- 项集:包含0个或多个项的集合被称为项集,如:{羽毛球拍,羽毛球};
- k-项集:包含k个项的项集被称为K项集,如{羽毛球拍,羽毛球}称为2-项集;
- 前件与后件:对于规则{羽毛球拍}-->{羽毛球},{羽毛球拍}叫做前件,{羽毛球}叫做后件。
2、频繁项集的评估标准:
频繁项集:经常出现在一块的物品的集合,当数据量非常大的时候,我们不可能通过人工去算,所以催生了关联规则的算法,如:Apriori、prefixSpan、CBA等。有了计算方法,那么常常出现在一块多少次的物品集合才算频繁项集,则还需要一个评估频繁项集的标准。评估标准有支持度,置信度、和提升度等,需要自定义一个阈值来衡量判别。