数据挖掘---数据处理

最新推荐文章于 2022-11-30 16:55:22 发布

数挖实验室

最新推荐文章于 2022-11-30 16:55:22 发布

阅读量1.2k

点赞数 1

分类专栏：其他数据挖掘文章标签：数据挖掘数据

本文链接：https://blog.csdn.net/dollyh/article/details/78072906

版权

本文概述了数据挖掘的过程，重点讨论数据预处理的重要性和步骤，包括数据清洗（缺失值处理、噪声数据平滑、离群点识别）、数据集成（实体识别、冗余分析）、数据归约（维归约、数值归约）和数据变换。通过对数据的描述性统计分析、相似性和相异性度量，以及预处理方法，强调了数据质量对结果的影响。

摘要由CSDN通过智能技术生成

大致流程：问题分析（需求分析）,数据预处理（数据清洗，数据集成，数据归约），特征选择，模型选择（方案设计），模型求解，模型评估，模型解释，写成报告形式，展示。
先撇开问题分析不说，数据预处理是数据分析挖掘最重要也是最基本的步骤。因为数据的质量往往能决定结果的质量。所以本篇先不谈各种数据挖掘算法，先做好数据预处理的基本功才是最重要的。

只做总结，不作细说

一、认识数据
首先对数据进行一些基本的描述性统计分析。
1.数据基本统计描述
关于中心趋势度量：均值，中位数，众数，中列数
给定一个属性，看他的值大部分落在何处。
1.1均值：
算术平均
调和平均
几何平均
截尾平均（为抵消少数极端值的影响，放弃高低极端后的均值）

1.2中位数

1.3众数

2.数据的散布（离散程度）
2.1极差
2.2四分位数
2.3四分位极差
四分位极差IQR：Q3-Q1（第3个四分位数-第1个四分位数），这个指标可以用于离群点的识别。识别可以的离群点的通常规则是，挑选落在第3个四分位数以上或第1个四分位数之下至少1.5*IOR处的值
2.4五数概括
2.5盒子图
注意盒子图的画法：盒子图会有两个“胡须”，这两个胡须一般是数据集的最小值和最大值，中位数用盒内