机器学习:关联分析

1 引言

说到关联分析,顾名思义的就可以联想到,所谓关联就是两个东西之间存在的某种联系。关联分析最有名的例子是“购物篮事务”,以前在美国西部的一家连锁店,店家发现男人们在周四购买尿布后还会购买啤酒。于是他便得出一个推理,尿布和啤酒存在某种关联。但是具体怎么来评判呢?先看下表:
 
表 1
表中每一行对应一个事物,包含一个唯一标识TID和给定顾客购买的商品的集合。从这个表中所示的数据中可以提取出如下规则:
{尿布}->{啤酒}

2 一些概念

项集和计数度计数 在关联分析中,包含0个或者多个项的集合被称为项集。如果一个项集包含k个项,则称为k-项集。支持度计数是指包含特定项集的事务的个数。
关联规则 关联规则是形如X->Y的蕴含表达式,其中X和Y是不相交的项集。关联规则的强度可以用它的支持度和置信度度量。
一个项集的支持度(support)被定义为数据集中包含该数据集的记录所占的比例。比如有规则X=>Y,它的支持度可以计算为包含XUY所有商品的交易量相对所有交易量的比例(也就是X和Y同时出现一次交易的概率)。可信度定义为包含XUY所有物品的交易量相对仅包含X的交易量的比值,也就是说可信度对应给定X时的条件概率。关联规则挖掘,其目的是自动发起这样的规则,同时计算这些规则的质量。
计算公式如下:
支持度=交易量包含XUY交易量支持度/交易量包含XUY交易量
可信度=交易量包含XUY交易量包含X可信度/交易量包含XUY交易量包含X
支持度和可信度是用来量化关联分析是否成功的方法。关联分析的目的包括两个:发现频繁项集和发现关联规则。首先我们要找到频繁项集,然后根据频繁项集找出关联规则。
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值