从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间范围内找到频繁项集。
为了快速明确概念,从例子出发,现在面对一沓超市购物单,我们要从中分析出哪些物品与哪些物品的关联度特别高,换句话说,当顾客买了商品A后,有多大的几率会购买B商品。通过关联分析可以帮助超市摆放不同商品之间就有了隐形的规则,比如葡萄酒旁边摆着尿布明显提升了两者的销量。
a.解释几个概念
1、数据对象:
假如对超市购物单进行分析,用0,1,2,3代替一种物品,列表如[[1,2],[1,3,0],[0,1],[0,2],[1,2,3,0]]就是一组由5个购物单组成的数据对象,其中每个子列表代替一个购物单(如[1,2]),目标就是分析通过以上的数据分析每种物品的关联关系。
2、支持度定义
支持度是衡量某个物品或物品组合是否频繁的有效指标,计算公式为
支持度=该物品或物品组合出现次数/总购物单数