数据挖掘算法基础-关联规则

数据挖掘中的关联规则用于发现交易数据中的频繁模式,如啤酒与尿布的经典案例。算法包括Apriori、FP-Growth和Eclat,通过支持度和置信度评估规则有效性。Apriori可能产生大量候选集,FP-Growth利用频繁模式树减少计算,Eclat采用垂直数据格式简化处理。提升度、全置信度、Kulczynski和余弦等度量衡量规则相关性。
摘要由CSDN通过智能技术生成

        数据挖掘中,被常拿来说的啤酒尿布的例子就是一个很典型的运用关联算法来做购物来分析的例子。常被用于交易数据、关系数据的分析,发现数据集中隐藏的频繁模式,这些频繁模式可以用关联规则的形式表示,有效的关联规则对商家的商品进出货摆放都有很大的指导意义。

是项的集合,数据集D是事务的集合,每项事务T是一个非空项集,且T是I的非空子集。每项事务都有一个唯一标识符,定义为TID,A和B均为事务T中的非空子集,并且A和B无交集。则规则 成立,支持度s是D中同时包含A和B的事务所占的百分比,置信度c是包含A的事务中包含B的事务的百分比。如下:

频繁模式中同时满足最小支持度阈值和最小置信度阈值的为强关联规则。

综上,关联规则挖掘主要分为两步:

1.      找出所有频繁项集。每个项集出现频次大于最小支持计数。

2.      由频繁项集得到强关联规则。这些规则同时满足最小支持度阈值和最小置信度阈值。

Apriori

Apriori先验算法,基于先验性质:频繁项集的所有非空子集也一定是频繁的。

针对水平数据{TID:item_set}

发现频繁集的过程

1.      扫描找出候选项集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值