关联分析
文章平均质量分 93
漫路拾光
这个作者很懒,什么都没留下…
展开
-
数据挖掘之关联分析六(子图模式)
子图模式频繁子图挖掘(frequent subgraph mining):在图的集合中发现一组公共子结构。 图和子图图是一种用来表示实体集之间联系的数据结构。子图,图G′=(V′,E′)G' = (V', E')是另一个图G=(V,E)G = (V, E)的子图,如果它的顶点集V’是V的子集,并且它的边集E’是E的子集,子图关系记做G′⊆sGG' \subseteq s G。支持度,给定图的集族ς原创 2015-08-20 16:19:09 · 3861 阅读 · 0 评论 -
数据挖掘之关联分析一(基本概念)
许多商业企业运营中的大量数据,通常称为购物篮事务(market basket transaction)。表中每一行对应一个事务,包含一个唯一标识TID。 利用关联分析的方法可以发现联系如关联规则或频繁项集。 关联分析需要处理的关键问题: 1. 从大型事务数据集中发现模式可能在计算上要付出很高的代价。 2. 所发现的某些模式可能是假的,因为它们可能是偶然发生的。二元表示 没按过对应一个事原创 2015-08-18 21:01:51 · 5131 阅读 · 0 评论 -
数据挖掘之关联分析五(序列模式)
购物篮数据常常包含关于商品何时被顾客购买的时间信息,可以使用这种信息,将顾客在一段时间内的购物拼接成事务序列,这些事务通常基于时间或空间的先后次序。 问题描述一般地,序列是元素(element)的有序列表。可以记做s=(e1,e2,⋯,en)s = (e_1, e_2, \cdots, e_n),其中每个eje_j是多个事件的集簇,即ej=i1,i2,⋯,ike_j = {i_1, i_2, \c原创 2015-08-19 19:28:42 · 6995 阅读 · 4 评论 -
数据挖掘之关联分析二(频繁项集的产生)
频繁项集的产生格结构(lattice structure)常常用来表示所有可能的项集。 发现频繁项集的一个原始方法是确定格结构中每个候选项集的支持度。但是工作量比较大。另外有几种方法可以降低产生频繁项集的计算复杂度。 1. 减少候选项集的数目。如先验(apriori)原理,是一种不用计算支持度而删除某些候选项集的方法。 2. 减少比较次数。利用更高级得到数据结构或者存储候选项集或者压缩数据原创 2015-08-18 21:58:52 · 11532 阅读 · 0 评论 -
数据挖掘之关联分析四(连续属性处理)
处理连续属性挖掘连续属性可能揭示数据的内在联系,包含连续属性的关联规则通常称作量化关联规则(quantitative association rule)。主要讨论三种对连续数据进行关联分析的方法 1. 基于离散化的方法 2. 基于统计学的方法 3. 非离散化方法基于离散化方法离散化是处理连续属性最常用的方法,这种方法将连续属性的邻近值分组,形成有限个区间,例如,年龄属性可以形成如下区间原创 2015-08-18 20:34:28 · 3721 阅读 · 0 评论 -
数据挖掘之关联分析三(规则的产生)
规则产生忽略那些前件和后件为空的规则,每个频繁k项集能够产生2(2k−1)2(2^k-1)个关联规则。将频繁项集Y划分为两个非空子集X和Y-X,使得X→Y−XX \to Y-X能满足置信度阈值,就可以得到满足条件的规则。 在计算规则的置信度时并不需要再次扫描事务数据集,因为产生规则的频繁项集和它们的子集也都是频繁项集,我们在提取频繁项集时,已经计算过它们的支持度计数,因而不需要再扫描所有的数据集。原创 2015-08-18 22:14:46 · 2411 阅读 · 0 评论 -
数据挖掘之关联分析七(非频繁模式)
非频繁模式非频繁模式,是一个项集或规则,其支持度小于阈值minsup. 绝大部分的频繁模式不是令人感兴趣的,但其中有些分析是有用的,特别是涉及到数据中的负相关时,如一起购买DVD的顾客多半不会购买VCR,反之亦然,这种负相关模式有助于识别竞争项(competing item),即可以相互替代的项。某些非频繁模式也可能暗示数据中出现了某些罕见事件或例外情况。如,如果{火灾=yes}是频繁的,但是{火原创 2015-08-21 13:46:34 · 1527 阅读 · 0 评论