关联分析法,超详解!进来秒懂!!

关联分析的目的是找到事务间的关联性,用以指导决策行为。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。又如“‘C语言’课程优秀的同学,在学习‘数据结构’时为优秀的可能性达88%”,那么就可以通过强化“C语言”的学习来提高教学效果。
接下来我会分为四部分来讲解
在这里插入图片描述

我们先明确一些概念:
频繁项集:经常出现在一块儿的物品的集合。
关联规则:暗示两种物品之间可能存在很强的关系。
支持度(support):
项在事务中发生的频率。
支持度表示项集{X,Y}在总项集里出现的概率。
公式为:
Support(X- +Y) = P(X,Y)/P(I) = P(X∪Y) /P(I)
其中,I表示总事务集。
置信度(Confidence): .
表示在先决条件x发生的情况下,由关联规则”X→Y"推出Y的概率。
即在含有x的项集中,含有Y的可能性,公式为:
Confidence(X-→Y)= P(Y|X) = P(X,Y)/ P(X) = P(XUY)/ P(X)
提升度(Lift):
表示含有x的条件下,同时含有Y的概率,与Y总体发生的概率之比。
Lift(X→Y)= P(Y|X) / P(Y)
关于关联分析还有另外的算法,这里讲解Apriori算法

在这里插入图片描述
这里的逆否命题怎么理解呢?就是说比如一个项集{2,3},不是频繁的,那么它的超集{2,3,5}就一定不是频繁的。

下面我会举个例子,来讲解这个算法
在这里插入图片描述
由表,我们找出频繁项集(其中阈值是由我们随便设的)
在这里插入图片描述
剪枝加自连接,得到我们最后的频繁项集
在这里插入图片描述
由频繁项集产生强关联规则,然后算关联规则之间的置信度和提升度
在这里插入图片描述
在这里插入图片描述
由此我们得出,用户感兴趣的规则为儿童床→蚊帐或蚊帐→儿童床。

这里明确一个强关联规则中提升度的概念,要使我们两个东西之间关联是有效的,就需要计算提升度,大于1的提升度,才是用户感兴趣的,有效的。
在这里插入图片描述
那么怎么区分理解置信度和提升度?置信度也就是说在买了冰丝凉席之后又去买儿童床的概率,提升度则是衡量冰丝凉席→儿童床这条规则是否有效。如果冰丝凉席→儿童床=0,就说明两者独立不存在关联性,用户一般就会单独购买两者,不会一起买。就比如1号炒锅和2号炒锅,用户买了1号之后,就不会再买2号了,因为用户已经有了炒锅。=0就说明两者是这两种炒锅的关系。

  • 8
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
sklearn是一个Python机器学习库,提供了许多常用的机器学习算法和工具。关联分析是其中的一种算法,用于发现数据集中项集之间的关联规则。 关联分析的目标是找出数据集中的频繁项集和关联规则。频繁项集指的是在数据集中经常一起出现的项组合,而关联规则表示这些项之间的关系。 在sklearn中,关联分析通常使用Apriori算法来实现。Apriori算法是一种经典的关联分析算法,它通过多次迭代来发现频繁项集和关联规则。这个算法的基本思想是利用逐层搜索的方法,先找出频繁项集的子集,再根据设定的支持度阈值找出更大的频繁项集,最终找出所有频繁项集和关联规则。 在sklearn中,使用关联分析需要进行以下步骤: 1. 准备数据集:将数据集整理成一个二维列表或数组的形式,每一行表示一个事务,每一列表示一个项。 2. 创建关联分析对象:使用sklearn的`FPGrowth`或`Apriori`类创建一个关联分析对象。 3. 训练模型:使用关联分析对象的`fit`方法对准备好的数据集进行训练。 4. 获取频繁项集:使用关联分析对象的`frequent_itemsets_`属性获取所有的频繁项集。 5. 获取关联规则:使用关联分析对象的`rules_`属性获取所有的关联规则。 6. 根据需要对频繁项集和关联规则进行分析和解释。 总之,sklearn的关联分析功能可以帮助我们从数据集中发现频繁项集和关联规则,这有助于我们了解数据中的关联关系,进而对数据进行更深入的分析和处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值