想获取PPT加Q1271370903
数据挖掘频繁项集挖掘方法
1.引入
1.2关联规则的基本概念
(1)关联规则挖掘用来发现大量数据中项集之间有趣的关联联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。
(2)关联规则挖掘问题两个子问题:
第一步是找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;
第二步是利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心。
(3)支持度
(4)置信度
(5)最小支持度和最小置信度
(6)强关联规则
1.3频繁模式分析
1.4项与项集
数据库中不可分割的最小单位信息称为项(或项目),项的集合称为项集。
设l={fi,i2,…" ,im}为一个项目集合(Set of ltems,,项集),其中i, i2,…",im称为项(item,项)。
在超市的交易数据仓库中,每个项j,代表一种商品的编号或名称,为计算方便假设l中的项已按字典序排序。
若l中项目的个数为k,则集合l称为k-项集。2.事务
设l={fi,i2… im}是由数据库中所有项目构成的集合,事务数据库T={t,t2…t}是由一系列具有唯一标识的事务组成。每一个事务
t,(j=1,2,…,n)包含的项集都是l的子集,即t, cl (j=1,2,…n)。
在超市等交易数据仓库中,t就代表某个顾客一次购买的所有商品编号或商品名称。
2.Apriori算法原理
2.1Apriori算法在具体实现
时,将关联规则的挖掘过程分解为两个子问题。
1.发现频繁项集
根据用户给定的最小支持度min_sup ,寻找出所有的频繁项集,即满足支持度Support不低于min_ sup的所有项集。由于这些频繁项集之间有可能存在包含关系,因此,我们可以只关心所有的最大频繁项集,即那些不被其它频繁项集所包含的所有频繁项集。
2.生成关联规则
根据用户给定的最小置信度min_ conf,在每个最大频繁项集中,寻找置信度Confidence不小于min_ conf的关联规则。
说明:
第二个子问题相对容易些,因为它只需要在已经找出的频繁项目集的基础上列出所有可能的关联规则,同时,满足支持度和置信度阈值要求的规则被认为是有趣的关联规则。
第一个子问题是挖掘关联规则的关键步骤,挖掘关联规则的总体性能由第一个步骤决定,因此,所有挖掘关联规则的算法都是着重于研究第一个子问题。
2.2主要步骤:
(1)扫描全部数据,产生候选1-项集的集合C1;
(2)根据最小支持度,由候选1-项集的集合c1产生频繁1-项集的集合L1;
(3)对k>1,重复执行步骤(4)、(5)、(6) ;
(4)由uk,执行连接和剪枝操作,产生候选(k+l)-项集的集合Ck+1;(5)根据最小支持度,由候选(ktl)-项集的集合Ck+1,产生频繁(k+1)-项集的集合Lk+1 ﹔
(6)若Lk+1≠,则k=k+1,跳往步骤(4);否则,跳往步骤(7);.(7)根据最小置信度,由频繁项集产生强关联规则,结束。接下来还是看个例子。
2.3Apriori算法存在问题