挖掘频繁模式、相关和关联(1)

本文介绍了频繁模式挖掘的基本概念,包括支持度和置信度,以及Apriori算法和FP-Growth算法的工作原理。Apriori算法采用逐层搜索的迭代方法,通过候选产生和剪枝步骤找到频繁项集。FP-Growth则通过构建FP树和条件模式基,以分治策略减少数据库扫描次数。这两个算法在数据挖掘领域有着广泛应用。
摘要由CSDN通过智能技术生成

频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以用关联规则表示如何判断模式是否频繁,有两个基本的度量:

支持度(support):该模式在所有被考察的对象中的占比,表示了该模式(规则)的有用性;

置信度(cofidence):由规则的前因推出后果的可信度,表示了规则的确定性;

设规则为A->B,则支持度和置信度可以表示如下:

support(A->B) = P(AUB)

confidence(A->B) = P(A|B)

根据上面的定义,可以得出挖掘关联规则(A->B)的问题可以归结为挖掘频繁项集(因为这里的概率运算都可以用满足条件的项的出现次数和总个数的比表示):

1. 找出所有的频繁项集;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值