1 问题引入
在去杂货店买东西的过程,实际上包含了机器学习的应用,这包括物品的展示方式、优惠券等。通过查看哪些商品经常被一起购买,商店可以了解用户的购买习惯,然后将经常被一起购买的物品摆放在一起,有助于商品的售卖。从大规模数据集中寻找物品建的隐含关系被称作关联分析。但是寻找物品不同的组合是一项十分耗时的任务,暴力搜索不不能解决这个问题,所以我们需要考虑更加智能的方式去完成这项艰巨的任务。
2 Apriori算法
2.1 频繁项集
关联分析是一种在大规模数据集中寻找某种特定关系的任务。这些关系有两种形式,频繁项集和或关联规则。频繁项集是指经常一块出现的物品的集合。但我们需要频繁的定义是什么,这里引入两个概念,支持度,一个项集的支持度被定义为数据集中包好该项集纪录所占的比例。可信度,针对关联规则定义,如下图。
{尿布}的支持度为4/5,{尿布,葡萄酒}的支持度为3/5。
{尿布}→{葡萄酒}的可信度定义为(尿布,葡萄酒的支持度)/(尿布的支持度),即3/4。
2.2 Apriori