数据上的关联规则

关联规则挖掘的目标是发现数据项集之间的关联关系或相关关系,是数据挖掘中的一个重要的课题。

先简单介绍一下关联规则挖掘中涉及的几个基本概念:

定义1:项与项集

数据库中不可分割的最小单位信息,称为项目,用符号i表示。项的集合称为项集。设集合I={i1, i2, ..., ik}是项集,I中项目的个数为k,则集合I称为k项集。

定义2:事务

设I={i1, i2, ..., ik}是由数据库中所有项目构成的集合,一次处理所含项目的集合用T表示,T={t1, t2, ..., tn}。每一个包含ti子项的项集都是I子集。

定义3:项集的频数(支持度计数)

包括项集的事务数称为项集的频数(支持度计数)。

定义4:关联规则

关联规则是形如X=>Y的蕴含式,其中X、Y分别是I的真子集,并且X∩Y=Ø。X称为规则的前提,Y称为规则的结果。关联规则反映X中的项目出现时,Y中的项目也跟着出现的规律。

定义5:关联规则的支持度(Support)

关联规则的支持度是交易集中同时包含的X和Y的交易数与所有交易数之比,记为support(X=>Y),即support(X=>Y)=supportX∪Y=P(XY)。支持度反映了X和Y中所含的项在事务集中同时出现的概率。

定义6:关联规则的置信度(Confidence)

关联规则的置信度是交易集中包含X和Y的交易数与所有包含X的交易数之比,记为confidence(X=>Y),即:confidence(X=>Y)==P(Y|X)。置信度反映了包含X的事务中,出现Y的条件概率。

定义7:最小支持度与最小置信度

通常用户为了达到一定的要求,需要指定规则必须满足的支持度和置信度阈限,当support(X=>Y)、confidence(X=>Y)分别大于等于各自的阈限值时,认为X=>Y是有趣的,此两个值称为最小支持阈值(min_sup)和最小置信阈值(min_conf)。其中,min_sup描述了关联规则的最低重要程度,min_conf规定了关联规则必须满足的最低可靠性。

定义8:频繁项集

设U={u1, u2, ..., un}为项目的集合,且UI,U≠Ø,对于给定的最小支持度min_sup,如果项集U的支持度support(U)≧min_sup,则称U为频繁项集,否则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值