DataMining(1)

最新推荐文章于 2024-09-20 00:09:16 发布

Future-Miracle

最新推荐文章于 2024-09-20 00:09:16 发布

阅读量751

点赞数

分类专栏：大数据文章标签：数据挖掘

本文链接：https://blog.csdn.net/wlqkycg/article/details/47809199

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一：数据挖掘的基本知识
数据挖掘（Data Mining,简称DM）简单的讲就是从大量数据中挖掘或抽取出知识，数据挖掘，又称为数据库中知识的发现（Knowledge Discovery from DataBase,简称KDD）,它是一个从大量数据中抽取挖掘未知的，有价值的模式或规律等知识的复杂过程。
KDD就是利用机器学习的方法从数据库中提取有价值知识的过程，他是数据库技术和机器学习两个学科的交叉领域，数据库技术侧重于对数据存储处理的高效率方法的研究，而机器学习侧重于设计新的方法从数据中提取知识。
数据挖掘的功能总结：（1）概念描述：定性与对比（2）关联分析（association analysis）就是从给定的数据集发现频繁出现的项集模式知识（3）分类与预测（4）聚类分析（clustering analysis）(5)异类分析（oulter）(6)演化分析
数据挖掘，就是一个从大量有噪声、不完整的数据中挖掘出有意义模式知识的过程。
二：数据预处理
数据预处理主要包括：数据清洗（data clearing）、数据集成（data integration）、数据转换（data transformation）、数据消减（data reduction）。
三：数据定性与归纳
四：数据分类与预测
五：数据的关联挖掘
六：数据的聚类分析

Data Mining : Concepts and Techniques 第八章分类
1：分类和数值预测是预测问题的两种基本类型。数据分类包含两个阶段：学习阶段和分类阶段。
先使用一些训练数据构造分类器，即找到分类的规则。然后使用一些测试数据对构造的分类器进行检验，测试所构造的分类器的准确率是否可以接受。如果可以的话，就使用所构造的分类器对新的数据进行分类。
2：决策树算法又称为迭代二分器（Iterative Dichotomiser,ID3）,后来扩展出了C4.5和CART算法。
在构造决策树的时候，选择属性放在根节点的三个衡量标准是：信息增益，增益率和基尼指数（Gini指数）。
（1）ID3使用信息增益作为属性选择度量。该度量基于香农（Claude Shannon）在研究消息的值或“信息内容”的信息轮方面的先驱工作。在使用ID3进行构造决策树的时候我们选择具有最高信息增益的属性做为节点N的分裂属性。该属性使得结果分区中对元组分类所需要的信息量最小，并反映这些分区中的最小随机性或“不纯性”。

=============================================================
1.2什么是数据挖掘
数据挖掘就是从大量数据中挖掘出有趣的模式和知识的过程。数据源包括数据库，数据仓库，Web，其他信息存储库或动态的流入系统的数据库。
1.4可挖掘什么类型的模式
（1）类/概念描述：特征化和区分（2）挖掘频繁模式、关联和相关性（3）用于预测分析的分类与回归（4）聚类分析（5）离群点分析
1.5数据挖掘使用什么技术
（1）统计学（2）机器学习（3）模式识别（4）信息检索（5）算法（6）可视化（7）数据库和数据仓库

2认识数据
2.2数据的中心趋势度量：均值，中位数，众数
2.3数据的分散趋势度量：方差，极差，标准差，四分位数，四分位数极差
3度量数据的相似性和相异性

===========================================================
Chapter3：数据预处理

1.为了要提高数据质量因此要进行数据预处理，衡量数据质量的因素如下：准确性，完整性，一致性，时效性，可信性和可解释性。
2.数据预处理的主要任务是进行：数据清理，数据集成，数据归约和数据变换。
2.1：由于现实世界的数据一是不完整的，有噪声的和不一致的。数据清理例程试图填充缺失的值，光滑噪声并识别离群点，纠正数据中的不一致。
3.数据集成将来自多个数据源的数据整合成一致的数据存储。语义异种性的解决，元数据，相关分析，元组重复检测和数据冲突检测都有助于数据的顺利集成。
4.数据归约的方法包含，维数归约，数量归约和数据压缩，其中：
4.1：维数归约减少所考虑的随机变量或维的个数，方法包含小波变换，主成分分析，属性子集选择和属性创建.
4.2：数量归约方法使用参数或非参数模型，得到原始数据的最小表示。参数模型只存放模型参数，而非实际数据。例如回归和对数线性模型。非参数方法包括直方图，聚类，抽样和数据立方体聚集。
4.3：数据压缩方法使用变换，得到原始数据的归约或“压缩”表示，如果原始数据可以由压缩后的数据重构，而不损失任何数据，则数据压缩是无损的；否则，它是有损的。
5.数据变换例程将数据变换成适于挖掘的形式。例如，在规范化中，属2性数据可以缩放，使得他们可以落在较小的区间，如0.0到1.0。其他例子包括数据离散化和概念分层产生。
6.数据离散化通过把值映射到区间或概念标号变换数值数据。这种方法可以用来自动的产生数据的概念分层，而概念分层允许在多个粒度层进行挖掘，离散化技术包括分箱，直方图分析，聚类分析，决策树分析和相关分析。对于标称数据，概念分层可以基于模式定义以及每个属性的不同值的个数产生。