一个例子入门
尿布与啤酒
据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。这样商店实际上可以将尿布和啤酒放在一块,并确保在周四全价销售而获利。
概述
Apriori算法是数据挖掘中一种挖掘关联规则的频繁项集算法。
两个概念
关联规则:
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。
频繁项集 :
项的集合称为项集。包含k个项的项集称为k-项集。项集的出项频率是包含项集的事务数,简称为项集的频率,支持度计数或计数。注意,定义项集的支持度有时称为相对支持度,而出现的频率称为绝对支持度。如果项集I的相对支持度满足预定义的最小支持度阈值,则I是频繁项集。
两个参数
支持度(suppor