第七章——数据挖掘(2)

一、 关联规则

关联规则是数据库和数据挖掘领域中所发明并被广泛研究的最为重要的模型。关联规则的目标是在数据项目中找出所有的并发关系,这种关系也称为关联。

1.基本概念

关联规则的形式:设1=i,iz...im是一个项目集合,T是一个事务集合,其中每个事务t;是一个项目集合,并满足t;EI,一个关联规则可以表示成如下形式的蕴含关系:X→Y,其中X属于Y,Y属于I且X交Y非空。

2.关联规则强度指标

支持度和置信度是两个常用的衡量关联规则强度的指标关联规则X> Y的支持度是数据库中包含XUY 的事务占全部事务的百分比。它是概率P(XUY),记作    support(X=Y)=P(XUY).

关联规则X→Y的置信度是包含XUY 的事务与包含X的事务数的比值。它是概率P(Y|X),记作     confidence(X=Y)=P(Y|X)。

3.频繁项集

每个属性由多个元素组成,这里的元素称为项,多个项组成的集合称为项集。如果某个项集的支持度大于或等于预先设定的最小支持度阚值,则将这个项集称为频繁项集或大项集,所有的频繁k项集组成的集合通常记为Lk。

二、关联规则挖掘算法

关联规则挖掘算法中,Apriori算法最为著名,其挖掘的过程主要包含两个阶段:第一阶段先从数据集中找出所有的频繁项集,它们的支持度大于等于最小支持度闯值。第二阶段由这些频繁项集产生关联规则,计算它们的置信度,然后保留那些置信度大于等于最小置信度阚值的关联规则。

1.Apriori 算法中候选集合的产生

(1)连接

为了找Lk,通过Lk-1与自己连接产生候选k项集的集合,该候选k项集记为Ck:Lk

系统化地阐述了数据挖掘和知识发现技术的产生、发展、应用和相关概念、原理、算法。对数据挖掘中的主要技术分支,包括关联规则、分类、聚类、序列、空间以及Web挖掘等进行了理论剖析和算法描述。本书的许多工作是作者们在攻读博士学位期间的工作总结,一方面,对于相关概念和技术的阐述尽量先从理论分析入手,在此基础上进行技术归纳。另一方面,为了保证技术的系统性,所有的挖掘模型和算法描述都在统一的技术归纳框架下进行。同时,为了避免抽象算法描述给读者带来的理解困难,本书的所有典型算法都通过具体跟踪执行实例来进一步说明。本书共分8章,各章相对独立成篇,以利于读者选择性学习。在每章后面都设置专门一节来对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且也起到对本内容相关文献的注释性索引功能。第1章是绪论,系统地介绍了数据挖掘产生的商业和技术背景,从不同侧面剖析了数据挖掘的概念和应用价值;第2章给出了知识发现的过程分析和应用体系结构设计;第3章对关联规则挖掘的原理和算法进行全面阐述;第4章给出分类的主要理论和算法描述;第5章讨论聚类的常用技术和算法;第6章对时间序列分析技术和序列挖掘算法进行论述;第7章系统地介绍了Web挖掘的主要研究领域和相关技术及算法;第8章是对空间数据挖掘技术和算法的分析和讲述。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值