数据挖掘
文章平均质量分 89
DQ_DM
这个作者很懒,什么都没留下…
展开
-
第九章 贝叶斯信念网络分类
朴素贝叶斯分类有一个限制条件,就是假定类条件独立(即给定元组的类标号,假定属性的值可以条件地相互独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的。然而,在实践中,变量(属性)之间可能存在依赖关系,这样就限制了朴素贝叶斯分类的能力。贝叶斯信念网络说明联合条件概率分布,它提供一种因果关系的图形模型,可以在其上进行学习。它不要求所有的属性集都条件独立,而允许一部分属性条件独立。训练后的贝叶斯信原创 2014-08-04 08:13:20 · 1994 阅读 · 0 评论 -
第三章 数据预处理
第三章 数据预处理当今现实世界的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大(常常多达数兆兆字节,甚至更多)。“如何对数据进行预处理,提高数据质量,从而提高挖掘结果的质量? 如何对数据预处理,使得挖掘过程更加有效、更加容易?”有大量数据预处理技术。数据清理可以清除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一致的数据存储,如数据仓库。数据归约可以通过如聚集、删除原创 2014-07-13 20:35:10 · 5227 阅读 · 0 评论 -
第一章 引言
第一章 引言1.1 为什么进行数据挖掘我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。1.1.1 迈向信息时代 一种流行的说法是“我们生活在信息时代”。然而,实际上我们生活在数据时代。数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导原创 2014-07-05 14:54:22 · 1567 阅读 · 2 评论 -
第二章 认识数据
第二章 认识数据2.1 数据对象与属性类型数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售。通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中,则它们是数据元组。也就是说,数据库的行对应于数据对象,而列对应于属性。2.1.1 什么是属性属性是一个数据字段,表示数据对象的一个特征。在原创 2014-07-07 22:16:08 · 2583 阅读 · 0 评论 -
第九章 基于案例的推理(CBR)分类法
基于案例的推理(Case-BasedReasoning,简称CBR)是人工智能发展较为成熟的一个分支,它是一种基于过去的实际经验或经历的推理。对基于案例的推理来说,求解一个问题的结论是从记忆里或案例库中找到与当前问题最相关的案例,然后对该案例做必要的改动以适合当前需解决的问题。1、CBR简介1.1 CBR的概念简而言之,CBR基于这样一个观察事实:人们在解决问题时总是首先试图从以往经原创 2014-09-26 08:48:07 · 26348 阅读 · 0 评论 -
第八章 分类:基本概念
8.1 基本概念8.1.1 什么是分类分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类的(离散的、无序的)类标号。这些类别可以用离散值表示,其中值之间的次序没有意义。8.1.2 分类的一般方法 数据分类是一个两阶段过程:(1)学习阶段(构建分类模型)(2)分类阶段(使用模型预测给定数据的类标号) 在原创 2014-09-17 14:49:48 · 3809 阅读 · 0 评论 -
第九章 SVM(支持向量机)
支持向量机(SVM),一种对线性和非线性数据进行分类的方法。简单的说,SVM是一种算法(其实不能说,SVM是一个分类器,因为它也可以用来做回归)。工作过程:使用一种非线性映射,把原训练数据映射到较高的维上。在新的维上,它搜索最佳分离超平面(即将一个类的元组与其他类分离的“决策边界”)。使用到足够高维上的、合适的非线性映射,两个类的数据总是可以被超平面分开。SVM使用支持向量(“基本”训练元原创 2014-09-24 09:26:20 · 888 阅读 · 0 评论 -
第六章 FP-Growth算法
海量数据下,Apriori算法的时空复杂度都不容忽视。1)空间复杂度:如果L1数量达到104的量级,那么C2中的候选项将达到107的量级。2)时间复杂度:每计算一次Ck就需要扫描一遍数据库。此时,人们希望设计一种方法,“挖掘全部频繁项集而无须这种代价昂贵的候选产生过程”。一种试图这样做的有趣的方法称为频繁模式增长(FP-Growth)。它采取如下分治策略:首先,将代表频繁项集的数据库压原创 2014-07-25 10:59:11 · 4056 阅读 · 0 评论 -
第九章 KNN(K最近邻分类算法)
1、惰性学习法 说到惰性学习法,就要提到急切学习法。急切学习法:给定训练集, 在接收待分类的新元祖(如检验元组)之前,就构造泛化(即分类)模型。如:决策树归纳、贝叶斯分类、基于规则的分类、后向传播分类、支持向量机和基于关联规则挖掘的分类等。惰性学习法(也称为基于实例的学习法):给定一个训练元组,简单地存储它 (或只是稍加处理) ,一直等到给定一个检验元组。仅当看到检验元组原创 2014-09-24 09:50:42 · 7848 阅读 · 0 评论 -
第六章 挖掘频繁模式、关联和相关性:基本概念和方法
6.1 基本概念6.1.1 频繁模式 频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。 频繁项集:频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合。频繁子序列:一个子序列,如首先购买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在购物历史数据库中,则称它为一个(频繁的)序列模式。频繁子结构:一个子结构可能涉及不同的结构形式,如子图、子树原创 2014-07-26 15:21:43 · 4045 阅读 · 0 评论 -
第八章 基于规则的分类
1、使用IF-THEN规则分类规则是表示信息或少量知识的好方法。基于规则的分类器使用一组IF—THEN规则进行分类。一个IF—THEN规则是一个如下的表达式:IF条件THEN结论规则R1是一个例子:R1:IF age=youth AND student=yes THEN buys_computer=yes也可以写作 R1:(age=youth)^(student=yes)=原创 2014-08-02 09:59:31 · 7990 阅读 · 0 评论 -
第八章 AdaBoost算法(提高分类准确率)
AdaBoost是一种流行的提升(提高分类准确率的组合分类方法)算法。它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。算法本身是改变数据分布实现的,它根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起原创 2014-09-16 16:26:40 · 4809 阅读 · 0 评论 -
第八章 朴素贝叶斯分类法
1、贝叶斯定理1.1 条件概率:P(X|H) 表示事件H已经发生的前提下,事件X发生的概率,叫做事件H发生下事件X的条件概率。1.2 贝叶斯定理:P(H|X):后验概率,或在条件X下,H的后验概率。P(H):先验概率,或H的先验概率。P(X|H):条件H下,X的后验概率。P(X):X的先验概率。 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:原创 2014-07-30 20:38:33 · 1733 阅读 · 2 评论 -
第八章 决策树算法
1、什么是决策树?决策树是一种类似于流程图的树结构。其中,每个内部结点(非树叶结点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点存放一个类标号。树的最顶层结点是根节点。内部结点用矩形表示,而叶结点用椭圆表示。决策树可以是二叉的,也可以是非二叉的(根据不同的决策树算法而定)。一棵典型的决策树如下图:2、如何使用决策树分类?给定一个类标号未知的元组X,在该决原创 2014-07-30 10:05:18 · 3444 阅读 · 0 评论 -
第九章 频繁模式分类
1、频繁模式 频繁模式显示了频繁地出现在给定数据集上的属性——值对之间的有趣联系。 例如,我们可能发现属性——值对age=youth和credit=OK出现在20%的购买计算机的AllRlectronics顾客元组中。 我们可以把每个属性——值对看作一个项,因此搜索这种频繁模式称作频繁模式挖掘或频繁项集挖掘。2、支持度、置信度原创 2014-09-24 09:39:59 · 2480 阅读 · 0 评论 -
第九章 后向传播算法(分类)
1、神经网络 后向传播(Back—PropagationNetwork,简称BP网络)是一种神经网络学习算法。神经网络最早是由心理学家和神经学家开创的,旨在寻求开发和检验神经的计算模拟。粗略地说,神经网络是一组连接的输入/输出单元,其中每个连接都与一个权重相关联。在学习阶段,通过调整这些权重,使得它能够正确预测输入样本的类标号。神经网络的缺点:(1)需要很长的训练时原创 2014-08-05 11:17:20 · 3436 阅读 · 0 评论 -
第六章 Apriori算法
1 Apriori算法介绍Apriori算法是Agrawal和R.Srikant于1994年提出的,为布尔关联规则挖掘频繁项集的原创性算法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。Apriori算法使用一种称为逐层搜索的迭代算法,其中k项集用于探索(k+1)项集。首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合,该集合记为L1原创 2014-07-24 11:02:14 · 2292 阅读 · 0 评论