数据挖掘:模型选择——关联规则

关联规则介绍

关联规则是一种从大型数据库中发现事物间相关性的方法。

  • 关联:当某件事物发生时,其他事物也会发生。
  • 关联分析:两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,其目的是挖掘数据之间的相关性和规律性。

比较常见的应用就是购物篮分析,分析用户购买产品的习惯,购买A产品后,购买B产品的概率。网上传的“啤酒和尿布”的故事,虽然是假的,但却是个比较好的例子,来说明事物之间关联性。

关联规则可以表示为如下式子:R:X→Y。比如尿布→啤酒,就是一条规则。

关联规则中的概念

项与项集:

  • 项:数据库中可不分割的最小单位信息,也叫项目,用符号i表示。(即单个商品,比如牛奶,尿布等
  • 项集:项的集合,设集合I={i1,i2,i3,……,ik}是项集,I中项目个数为k,集合称为k-项集。(集合中有k个商品就是k-项集,类似超市的采购清单

事务:假设I={i1,i2,i3,……,ik}是数据库中所有项构成的集合(即整个超市),给定一个交易数据库D,每个事务t是I的子集,每个交易都与一个唯一的标示符TID对应。(即每个人购物车里的商品情况
在这里插入图片描述

关联规则中重要的三个概念:

支持度

支持度:项集在整个D(所有数据,假设有N个数据)中出现的概率。某个商品组合出现的次数与总次数之比。其公式为:
在整个N中支持了多少个X。
在这里插入图片描述
这里{牛肉,鸡肉}的组合出现在t1,t4,t5,出现次数为3,一共的数据量为7(事务数),所以支持度为3/7。下一个同理。
在这里插入图片描述

最小支持度

对于出现次数不多的商品,往往不用去关注,为了衡量哪些商品出现得频繁,哪些商品出现得不频繁,提出了最小支持度的概念。这里的最小支持度是人为设定的。
在这里插入图片描述

置信度

置信度

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值