1基本概念
1.1引入:购物篮分析
假定作为超市的销售经理,你想更多地了解顾客的购物习惯,尤其是,你想知道“顾客可能会在一次购物同时购买哪些商品?”经常同时购买的商品可以摆放的近一些,以便进一步刺激这些商品同时销售。也可以将硬件和软件摆放在商店的两头,可能诱发买这些商品的顾客一路挑选其它的商品。
1.2 一个购物篮实例
TID | 项集 |
1 |
{ 面包,牛奶} |
2 |
{ 面包,尿布,啤酒,鸡蛋} |
3 |
{ 牛奶,尿布,啤酒,可乐} |
4 |
{ 面包,牛奶,尿布,啤酒} |
5 |
{ 面包,牛奶,尿布,可乐} |
其中 TID为事务的标号,可以理解为顾客的一次购买行为,例如TID=1表示,某一次一位顾客同时购买了面包与牛奶。
项集是项的集合,包含k个项的集合称为k项集,例如{ 面包,牛奶}为2项集,{ 面包,尿布,啤酒,鸡蛋}为4项集。
1.3 关联规则的表示方式
例如:购买计啤酒的人趋向于同时购买尿布
啤酒=> 尿布[ support = 60% ; confidence = 100% ]
Support:支持度百分之60显示所有事务中有百分之60显示啤酒和尿布被同时购买。
confidence:置信度百分之100表明所有购买啤酒的顾客有百分之100同时购买了尿布。
规则的支持度和规则的置信度是规则度量的两种方式。
支持度:确定规则可以用于给定数据集的频繁程度,给定一个最小支持度阈值,若一个项集的支持度大于阈值,则可以把此项集叫做频繁项集。
置信度:确定B在包含A的事务中出现的频繁程度。
1.4 支持度和置信度的计算方式
Support( A=> B ) = P ( A U B )
support(A U B ) support_count(A U B )
Confidence( A => B )=P(B|A)= —————————= ———————————
support( A ) support_count(A )
其中support_count是支持度计数,和支持度的区别在于,支持度是支持度计数和所有事务的比值,
即: support_count(A )
support(A ) = ———————————— ,其中U为全集。
support_count(U )
1.5 关联规则的产生方式
(1)在所有项集中找出满足最小支持度阈值的所有项集,这些项集称作频繁项集。
(2