python短文本数据集的关联性_Python关联分析

本文介绍了Python关联分析的基本概念,包括事务、项集、支持度、置信度、提升度等,并通过实例展示了如何使用mlxtend库进行频繁项集挖掘和规则计算。在案例中,分析了不同数据集,例如购物篮数据,揭示了啤酒与尿布、洋葱与马铃薯等商品之间的关联规则。
摘要由CSDN通过智能技术生成

一、理论知识概述

一个样本称为一个“事务”

每个事务由多个属性来确定,这里的属性称为“项”

多个项组成的集合称为“项集”

X==>Y含义:

X和Y是项集

X称为规则前项

Y称为规则后项

事务仅包含其涉及到的项目,而不包含项目的具体信息。

在超级市场的关联规则挖掘问题中,事务是顾客一次购物所购买的商品,但事务中并不包括这些商品的具体信息,如商品的数量、价格等。

支持度(support):一个项集或者规则在所有事务中出现的频率,σ(X):表示项集X的支持度计数

项集X的支持度:s(X)=σ(X)/N

规则X==>Y表示物品集X对物品集Y的支持度,也就是物品集X和物品集Y同时出现的概率

某天共有100个顾客到商场购买物品,其中有30个顾客同时购买了啤酒和尿布,那么上述的关联规则的支持度就是30%

置信度(confidence):确定Y在包含X的事务中出现的频繁程度。c(X→Y)=σ(X∪Y)/σ(X)

P(Y|X)=P(XY)/P(X)

置信度反映了关联规则的可信度,购买了项目集X中的商品的顾客同时也购买了项目集Y中的商品的可能性有多大

购买薯片的顾客中有50%的人也购买了可乐,则置信度为50%

设最小支持度为50%, 最小可信度为 50%, 则可得到 :

A==>C (50%, 66.6%)

C==>A (50%, 100%)

若关联规则X->Y的支持度和置信度分别大于或等于用户指定的最小支持率minsupport和最小置信度minconfidence,则称关联规则X->Y为强关联规则,否则称关联规则X->Y为弱关联规则。

提升度(lift):物品集A的出现对物品集B的出现的概率发生了多大的变化

lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)

现在有1000个消费者,有500人购买了茶叶,其中有450人同时 购买了咖啡,另50人没有。由于confidence(茶叶=>咖啡)=450/500=90%,由此可能会认为喜欢喝茶的人往往喜欢喝咖啡。但如果另外没有购买茶叶的500人,其中同样有450人购买了咖啡,同样是很高的置信度90%,由此得到不爱喝茶的也爱喝咖啡。这样看来,其实是否购买咖啡,与有没有购买茶叶并没有关联,两者是相互独立的,其提升度90%/[(450+450)/1000]=1 。

由此可见,lift正是弥补了confidence的这一缺陷,if lift=1,X与Y独立,X对Y出现的可能性没有提升作用,其值越大(lift>1),则表明X对Y的提升程度越大,也表明关联性越强。

Leverage 与 Conviction的作用和lift类似,都是值越大代表越关联

Leverage :

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值