数据挖掘算法——关联规则挖掘算法

1基本概念

1.1引入:购物篮分析

假定作为超市的销售经理,你想更多地了解顾客的购物习惯,尤其是,你想知道“顾客可能会在一次购物同时购买哪些商品?”经常同时购买的商品可以摆放的近一些,以便进一步刺激这些商品同时销售。也可以将硬件和软件摆放在商店的两头,可能诱发买这些商品的顾客一路挑选其它的商品。

1.2    一个购物篮实例

TID                         项集

1

   { 面包,牛奶}

2

   { 面包,尿布,啤酒,鸡蛋}

3

   { 牛奶,尿布,啤酒,可乐}

4

   { 面包,牛奶,尿布,啤酒}

5

   { 面包,牛奶,尿布,可乐}

其中 TID为事务的标号,可以理解为顾客的一次购买行为,例如TID=1表示,某一次一位顾客同时购买了面包与牛奶。

项集是项的集合,包含k个项的集合称为k项集,例如{ 面包,牛奶}2项集,{ 面包,尿布,啤酒,鸡蛋}4项集。

1.3  关联规则的表示方式

例如:购买计啤酒的人趋向于同时购买尿布

啤酒=> 尿布[ support = 60% ; confidence = 100% ]

Support:支持度百分之60显示所有事务中有百分之60显示啤酒和尿布被同时购买。

confidence置信度百分之100表明所有购买啤酒的顾客有百分之100同时购买了尿布。

规则的支持度和规则的置信度是规则度量的两种方式。

支持度:确定规则可以用于给定数据集的频繁程度,给定一个最小支持度阈值,若一个项集的支持度大于阈值,则可以把此项集叫做频繁项集。

置信度:确定B在包含A的事务中出现的频繁程度。

1.4  支持度和置信度的计算方式

SupportA=> B ) = P ( A U B )

                                                                            support(A U B )          support_count(A U B )

Confidence( A => B )=P(B|A)= —————————= ———————————

                                                                              support( A )                support_count(A )

其中support_count是支持度计数,和支持度的区别在于,支持度是支持度计数和所有事务的比值,

即:                      support_count(A )

support(A ) = ———————————— ,其中U为全集。

                              support_count(U )

1.5    关联规则的产生方式

1)在所有项集中找出满足最小支持度阈值的所有项集,这些项集称作频繁项集。

2

  • 3
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值