关联规则介绍
关联规则是一种从大型数据库中发现事物间相关性的方法。
- 关联:当某件事物发生时,其他事物也会发生。
- 关联分析:两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,其目的是挖掘数据之间的相关性和规律性。
比较常见的应用就是购物篮分析,分析用户购买产品的习惯,购买A产品后,购买B产品的概率。网上传的“啤酒和尿布”的故事,虽然是假的,但却是个比较好的例子,来说明事物之间关联性。
关联规则可以表示为如下式子:R:X→Y。比如尿布→啤酒,就是一条规则。
关联规则中的概念
项与项集:
- 项:数据库中可不分割的最小单位信息,也叫项目,用符号i表示。(即单个商品,比如牛奶,尿布等)
- 项集:项的集合,设集合I={i1,i2,i3,……,ik}是项集,I中项目个数为k,集合称为k-项集。(集合中有k个商品就是k-项集,类似超市的采购清单)
事务:假设I={i1,i2,i3,……,ik}是数据库中所有项构成的集合(即整个超市),给定一个交易数据库D,每个事务t是I的子集,每个交易都与一个唯一的标示符TID对应。(即每个人购物车里的商品情况)
关联规则中重要的三个概念:
支持度
支持度:项集在整个D(所有数据,假设有N个数据)中出现的概率。某个商品组合出现的次数与总次数之比。其公式为:
在整个N中支持了多少个X。
这里{牛肉,鸡肉}的组合出现在t1,t4,t5,出现次数为3,一共的数据量为7(事务数),所以支持度为3/7。下一个同理。
最小支持度
对于出现次数不多的商品,往往不用去关注,为了衡量哪些商品出现得频繁,哪些商品出现得不频繁,提出了最小支持度的概念。这里的最小支持度是人为设定的。
置信度
置信度