关联分析算法-基本概念、关联分析步骤

一、关联分析的基本概念

关联分析(Association Analysis):在大规模数据集中寻找有趣的关系。

频繁项集(Frequent Item Sets):经常出现在一块的物品的集合。

关联规则(Association Rules):暗示两个物品之间可能存在很强的关系。

 

支持度(Support):数据集中包含该项集的记录所占的比例,是针对项集来说的。

例子:豆奶,橙汁,尿布和啤酒是超市中的商品。

下表呈现每笔交易以及顾客所买的商品:

由此可见,总记录数为5,下面求每项集的支持度(以下并没有列出全部的支持度)。

{豆奶} :支持度为3/5.

{橙汁}:支持度为3/5.

{尿布}:支持度为3/5.

{啤酒}:支持度为4/5.

{啤酒,尿布}:支持度为3/5.

{橙汁,豆奶,啤酒}:支持度为2/5.

 

置信度(Confidence):出现某些物品时,另外一些物品必定出现的概率,针对规则而言。

   规则1:{尿布}-->{啤酒},表示在出现尿布的时候,同时出现啤酒的概率。

   该条规则的置信度被定义为:支持度{尿布,啤酒}/支持度{尿布}=(3/5)/(3/5)=3/3=1

 

   规则2:{啤酒}-->{尿布},表示在出现啤酒的时候,同时出现尿布的概率。

   该条规则的置信度被定义为:支持度{尿布,啤酒}/支持度{啤酒}=(3/5)/(4/5)=3/4

 

 

二、关联分析步骤

1. 发现频繁项集,即计算所有可能组合数的支持度,找出不少于人为设定的最小支持度的集合。

2. 发现关联规则,即计算不小于人为设定的最小支持度的集合的置信度,找到不小于认为设定的最小置信度规则。

 

例子:豆奶,橙汁,尿布和啤酒是超市中的商品,并为其编号,豆奶0,橙汁1,尿布2,啤酒3.

 

可能集合数:

可能组合的个数:C4,1+C4,2+C4,3+C4,4=4+6+4+1=15种

快速计算公式:2^n-1=2^4-1=15种

 

步骤一:发现频繁项集

此时,人为设定最小支持度为2/5. 以下涂黄色为大于2/5的集合。

 由此找到频繁项集。

步骤二:发现关联规则

 

 

 此时,人为设定最小置信度为3/4. 涂黄色的为大于等于3/4,涂橙色的为小于3/4.

 发现关联规则:

 

  

 

转载于:https://www.cnblogs.com/yidansheng/p/6855549.html

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值