数据挖掘复习

最新推荐文章于 2023-03-16 12:26:34 发布

greenhand coder

最新推荐文章于 2023-03-16 12:26:34 发布

阅读量1k

点赞数

文章标签：算法聚类数据挖掘

本文链接：https://blog.csdn.net/qq_43249043/article/details/114636688

版权

本文详细介绍了数据挖掘的基础概念，关联规则挖掘、决策树、贝叶斯分类、支持向量机以及聚类算法如K-means，强调了在实际应用中如K-means的优缺点和解决方案。此外，还探讨了数据预处理的关键步骤，如数据清理、数据集成、数据变换和数据规约，以及数据挖掘中的关键算法和评估标准。

摘要由CSDN通过智能技术生成

第一章

数据挖掘的概念

从数据库的大量数据中挖掘出有用的信息，即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，发现隐含的、规律性的、人们事先未知的，但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。

数据挖掘和那些学科有关联

机器学习、人工智能、数据库理论、统计学

数据挖掘的研究内容及功能

目前数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及Web数据挖掘等。
数据挖掘的功能：类/概念描述：特征化和区分，关联分析，分类和预测，聚类分析，孤立点分析，演变分析

第二章

2.1 数据与处理的目的
2.2 数据清理
2.3 数据集成和数据变换
2.4 数据规约

数据预处理（Data Preprocessing）：是指在对数据进行数据挖掘的主要处理以前，先对原始数据进行必要的清理、集成、转换、离散和归约等一系列的处理工作，以达到挖掘算法进行知识获取研究所要求的最低规范和标准。
常见的数据预处理方法有:
- 数据清理：明确有缺失值怎么处理（列出两三种处理缺失值的方法：忽略元组，人工填写缺失值）
- 数据集成：就是将来自多个数据源的数据合并到一起，形成一致的数据存储
- 数据变换：主要是将数据转换成适合于挖掘的形式，如将属性数据按比例缩放
- 数据归约：在不影响挖掘结果的前提下，通过数值聚集、删除冗余特性的办法压缩数据，提高挖掘模式的质量，降低时间复杂度
噪声（Noise）是指被测量变量的随机误差或方差。给定一个数值属性，如Price，我们怎样才能“光滑”数据去掉噪声？常见的数据光滑技术包含如下几种：
- 分箱（Binning）：分箱方法通过考察数据的“近邻”（即周围的值）来光滑有序数据的值，有序值通常分布到一些“桶”或箱中。由于分箱方法考察近邻的值，因此用来进行局部光滑。一般来说，宽度越大光滑效果越大，箱也可以是等宽的，即每个箱值的区间范围是个常量
  - 等深分箱：就是平均分配
  - 等宽分箱：就是比如直方图中X值按照一个区间划分，但个数不一定相等
- 回归：可以用一个函数（如回归函数）进行数据拟合来达到光滑数据的目的。线性回归涉及找出拟合两个属性（或变量）的“最佳”线，使得一个属性可以用来预测另一个属性。
- 聚类：可以通过聚类检测离群点，将类似的值组织成群或“簇”。直观地，落在簇集合之外的值视为离群点
连续域：可以使用皮尔逊相关系数R 理解这东西什么含义
- 相关系数rA，B的值在区间[-1.1]中。大于0则为正相关，小于0则负相关，等于0则认为AB相互独立。
离散域：可以使用卡方检验记住公式
理解化妆例子：
数据泛化：使用概念分层，用高层概念替换低层或“原始”数据。例如，对于年龄这种数值属性，“原始数据”可能包含20、30、40、50、60、70等，可以将上述数据映射到较高层的概念，如青年、中年和老年。
规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0_1.0或0.01.0。规范化可以消除数值型属性因大小不一而造成的挖掘结果偏差。
- 掌握其中最少两种方法，给数据要算的出来：
- 最大-最小规范化：