大数据分析与挖掘-Part2-数据预处理

最新推荐文章于 2023-02-28 23:16:51 发布

IncWu

最新推荐文章于 2023-02-28 23:16:51 发布

阅读量1.8k

点赞数

分类专栏：数据挖掘文章标签： spark 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IncWu/article/details/118496776

版权

大数据分析与挖掘-Part2-数据预处理

为什么要进行数据预处理？

初始数据集的准备与变化是数据挖掘的过程中重要步骤
包含大量不完整，含噪声和不完整的数据是大数据应用中的典型特点
数据的预处理能够有效提高数据质量，节约大量的时间和空间
大部分数据挖掘算法对输入数据的格式，质量以及规模有一定的要求
现实世界的数据是“脏的”
随着数据规模的增加，会出现很多数据质量问题：

不完整
- 缺失值：缺乏某些重要属性，仅包含聚集数据
噪声
- 包含错误值，离群点
不一致
- 由于重复存放的数据未能进行一致性地更新造成的
- 多用户系统，更新操作未能同步进行而引起
- 由于各种故障，错误造成的
没有有质量的数据，就没有有质量的挖掘结果（No quality data，No quality mining result！）

评价数据质量的指标

完整性（Completeness）

记录的缺失，一个对象遗漏一个或多个属性值，有实体完整性，域完整性，参照完整性

一致性（Consistency）

多个数据间更新的同步，包括数据记录的规范和数据逻辑的一致性

时效性（Timeliness）

是否及时更新

可信性（Believability）

解释性（Interpretability）

数据的汇总统计

为量化的，用单个数或小集合捕获可能很大的值集的各种特征

描述数据集中趋势的度量

平均数

优点：能够利用所有数据的特征，而且比较好算
缺点：平均数容易受极端数据的影响。

中位数

按数序排列的一组数据中居于中间位置的数据。
它不受最大，最小两个极端数值的影响，部分数据的变动对中位数没有影响，当一组数据中的个别数据变动较大时，常用于描述这组数据的集中趋势。

众数

在一组数据中出现次数最多的数据。
适合数据量较多时使用，且不受极端值的影响
当数值或被观察者没有明显次序（常发生于非数值性资料）时特别有用，因为这类数据无法很好地定义算数平均数和中位数。

集中趋势到分布形态度量——偏度

偏度是统计数据分布偏斜方向和程度的变量

在这里插入图片描述

描述数据离散程度的度量

极差

极差是指一组测量值内最大值与最小值之差，又称范围误差或全距，以R表示

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大数据分析与挖掘-Part2-数据预处理

大数据分析与挖掘-Part2-数据预处理为什么要进行数据预处理？初始数据集的准备与变化是数据挖掘的过程中重要步骤包含大量不完整，含噪声和不完整的数据是大数据应用中的典型特点数据的预处理能够有效提高数据质量，节约大量的时间和空间大部分数据挖掘算法对输入数据的格式，质量以及规模有一定的要求现实世界的数据是“脏的”随着数据规模的增加，会出现很多数据质量问题：不完整缺失值：缺乏某些重要属性，仅包含聚集数据噪声包含错误值，离群点不一致由于重复存放的数据未能进
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。