[机器学习]关联挖掘介绍

 

关联挖掘又称关联分析,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。

如下是一个超市的几笔交易记录:

中:TID代表交易流水号,Items代表一次交易的商品。

相关概念:

1、事务:每一条交易称为一个事务,例如示例1中的数据集就包含四个事务。

2、项:交易的每一个物品称为一个项,例如Cola、Egg等。

3、项集:包含零个或多个项的集合叫做项集,例如{Cola, Egg, Ham}。

4、k−项集:包含k个项的项集叫做k-项集,例如{Cola}叫做1-项集,{Cola, Egg}叫做2-项集。

5、支持度计数:一个项集出现在几个事务当中,它的支持度计数就是几。例如{Diaper, Beer}出现在事务 002、003和004中,所以它的支持度计数是3。

6、支持度(support):支持度表示项集{A,B}在总项集里出现的概率。表示A和B同时在总数I 中发生的概率,公式为:

  support(A→B) = P(A,B) / P(I) = P(A∩B) / P(I) = num(A∩B) / num(I)

其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。

即支持度计数除于总的事务数。例如上例中总的事务数为4,{Diaper, Beer}的支持度计数为3,所以它的支持度是3÷4=75%,说明有75%的人同时买了Diaper和Beer。

即:

7、频繁项集:支持度大于或等于某个阈值的项集就叫做频繁项集。例如阈值设为50%时,因为{Diaper, Beer}的支持度是75%,所以它是频繁项集。

8、前件和后件:对于规则{Diaper}→{Beer},{Diaper}叫做前件,{Beer}叫做后件。

9、置信度(confidence):置信度表示在先决条件A发生的情况下,由关联规则”A→B“推出B的概率。表示在发生A的项集中,同时会发生B的可能性,即A和B同时发生的个数占仅仅A发生个数的比例,公式为:

confidence(A→B) = P(B|A)  = P(A,B) / P(A) = P(A∩B) / P(A)

对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度计数除以{Diaper}的支持度计数,为这个规则的置信度,说明做A事务时,有多少同时做了B事务。

例如规则{Diaper}→{Beer}的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。

10、强关联规则:大于或等于最小支持度阈值(minsup)和最小置信度阈值(minconf)的规则叫做强关联规则。关联分析的最终目标就是要找出强关联规则。

11、提升度(lift):A事务对B事务的提升度,表示有A作为前提,对B出现的概率有什么样的影响。对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度除以{ Beer }的支持度与{ Diaper }的支持度的积。

Lift(A→B) = P(A|B) / P(B) /P(A)  即A对于B的置信度除以B的支持度和A的支持度之积

提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度<1 表示A事务和B事务是排斥(即购买A不太购买B),提升度=1表明A和B没有任何关联。

注意:

  1. 置信度很高,可能是在所有交易中,二者出现的频率都很高,所以它们之间的关联可能只是巧合,这时需要对比提升度。
  2. 置信度低可能是因为该项集在总事务中占比过小,这时也需要对比提升度。
  3. 提升度是一种很简单的判断关联关系的手段,但是在实际应用过程中受零事务的影响比较大,零事务就是上例中既不包含A又不包含B的事务。受零事务越大,提升度越大。实际应用中为了避免零事件的影响,一般用KULC度量+IR进行度量。

KULC=0.5*P(B|A)+0.5*P(A|B)  即双向置信度的平均值;

IR=P(B|A)/P(A|B)

局限性:

计算量过大!

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值