2014年07月_DQ_DM

原创第八章朴素贝叶斯分类法

1、贝叶斯定理1.1 条件概率：P(X|H) 表示事件H已经发生的前提下，事件X发生的概率，叫做事件H发生下事件X的条件概率。1.2 贝叶斯定理：P(H|X):后验概率，或在条件X下，H的后验概率。P(H)：先验概率，或H的先验概率。P(X|H)：条件H下，X的后验概率。P(X)：X的先验概率。贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：

2014-07-30 20:38:33 1600 2

原创第八章决策树算法

1、什么是决策树？决策树是一种类似于流程图的树结构。其中，每个内部结点（非树叶结点）表示在一个属性上的测试，每个分枝代表该测试的一个输出，而每个树叶结点存放一个类标号。树的最顶层结点是根节点。内部结点用矩形表示，而叶结点用椭圆表示。决策树可以是二叉的，也可以是非二叉的（根据不同的决策树算法而定）。一棵典型的决策树如下图：2、如何使用决策树分类？给定一个类标号未知的元组X，在该决

2014-07-30 10:05:18 3238

原创分类和聚类的区别及各自的常见算法

1、分类和聚类的区别：Classification (分类)，对于一个classifier，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做supervised learning (监督学习)，Clustering (聚类)，简单地说就是把相似的东

2014-07-28 15:02:28 5256

原创第六章挖掘频繁模式、关联和相关性：基本概念和方法

6.1 基本概念6.1.1 频繁模式频繁模式是频繁地出现在数据集中的模式（如项集、子序列或子结构）。频繁项集：频繁地同时出现在交易数据集中的商品（如牛奶和面包）的集合。频繁子序列：一个子序列，如首先购买PC，然后是数码相机，再后是内存卡，如果它频繁地出现在购物历史数据库中，则称它为一个（频繁的）序列模式。频繁子结构：一个子结构可能涉及不同的结构形式，如子图、子树

2014-07-26 15:21:43 3841

原创第六章 FP-Growth算法

海量数据下，Apriori算法的时空复杂度都不容忽视。1）空间复杂度：如果L1数量达到104的量级，那么C2中的候选项将达到107的量级。2）时间复杂度：每计算一次Ck就需要扫描一遍数据库。此时，人们希望设计一种方法，“挖掘全部频繁项集而无须这种代价昂贵的候选产生过程”。一种试图这样做的有趣的方法称为频繁模式增长（FP-Growth）。它采取如下分治策略：首先，将代表频繁项集的数据库压

2014-07-25 10:59:11 3732

原创第六章 Apriori算法

1 Apriori算法介绍Apriori算法是Agrawal和R.Srikant于1994年提出的，为布尔关联规则挖掘频繁项集的原创性算法。算法的名字基于这样的事实：算法使用频繁项集性质的先验知识。Apriori算法使用一种称为逐层搜索的迭代算法，其中k项集用于探索（k+1）项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合，该集合记为L1

2014-07-24 11:02:14 2131

原创人工智能、机器学习和数据挖掘三者之间的关系

人工智能：人工智能（ArtificialIntelligence），英文缩写为AI。它是关于知识的科学（知识的表示、知识的获取以及知识的应用）。人工智能（学科）是计算机科学中涉及研究、设计和应用智能机器的一个分支。它的近期主要目标在于研究用机器来模仿和执行人脑的某些智力功能，并开发相关理论和技术。人工职能（能力）是智能机器所执行的通常与人类智能有关的智能行为，如判断、推理、证明

2014-07-21 21:54:03 2412

原创数据挖掘18种候选算法和十大经典算法

国际权威的学术组织theIEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法。不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。一、数据挖掘18种候选算法 Classification（分类）==

2014-07-21 15:25:13 2919 1

原创第三章数据预处理

第三章数据预处理当今现实世界的数据库极易受噪声、缺失值和不一致数据的侵扰，因为数据库太大（常常多达数兆兆字节，甚至更多）。“如何对数据进行预处理，提高数据质量，从而提高挖掘结果的质量？如何对数据预处理，使得挖掘过程更加有效、更加容易？”有大量数据预处理技术。数据清理可以清除数据中的噪声，纠正不一致。数据集成将数据由多个数据源合并成一致的数据存储，如数据仓库。数据归约可以通过如聚集、删除

2014-07-13 20:35:10 5019

原创第二章认识数据

第二章认识数据2.1 数据对象与属性类型数据集由数据对象组成。一个数据对象代表一个实体。例如，在销售数据库中，对象可以是顾客、商品或销售。通常，数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中，则它们是数据元组。也就是说，数据库的行对应于数据对象，而列对应于属性。2.1.1 什么是属性属性是一个数据字段，表示数据对象的一个特征。在

2014-07-07 22:16:08 2456

原创第一章引言

第一章引言1.1 为什么进行数据挖掘我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。1.1.1 迈向信息时代一种流行的说法是“我们生活在信息时代”。然而，实际上我们生活在数据时代。数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具，以便从这些海量数据中发现有价值的信息，把这些数据转化成有组织的知识。这种需求导

2014-07-05 14:54:22 1484 2

moving