R语言数据挖掘(3)——关联分析

本文介绍了R语言中进行关联分析的基本概念,包括支持度、置信度和提升度,并详细阐述了如何使用arules包的apriori函数进行频繁项集和关联规则挖掘。通过案例展示了规则的筛选和强度控制,以及关联关系的可视化方法。
摘要由CSDN通过智能技术生成

一、基本概念

1.支持度(support)

支持度是指在所有项集中{X,Y}出现的可能性,即项集中同时含有X和Y的概率

support(X→Y)=P(X,Y)

通过最小阈值的设定,剔除频率较低的无意义规则。满足

support(Z)>=minsup

的项集Z,称为频繁项集


2.置信度(confidence)

置信度表示在关联规则的先决条件X发生的条件下,关联结果Y发生的概率,即在含有X的情况下含有Y的条件概率

confidence(X-Y)=P(Y|X)

置信度衡量了关联规则在“质量”上的可靠性。同样采用最小阈值选出满足confidence(Z)>=mincon的强关联规则


3.提升度(lift)

提升度为Y自身出现的概率P(Y)与含有X的情况下含有Y的条件概率P(Y|X)之比。其值越大(>1),表面X对Y的提升成都

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值