Python数据分析与挖掘：数据探索(一）

最新推荐文章于 2024-05-12 10:00:00 发布

嘉木空青

最新推荐文章于 2024-05-12 10:00:00 发布

阅读量638

点赞数 1

分类专栏：数据分析与挖掘 Python开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Doutd_y/article/details/83316540

版权

数据分析与挖掘同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

6 篇文章 1 订阅

订阅专栏

数据质量分析：

脏数据检查

脏数据：

缺失值

异常值

不一致的值

重复数据及含有特殊符号（#，&，￥）的数据

缺失值分析：

1、缺失值产生的原因

1）有些信息暂时无法获取，或者获取信息的代价太大

2）某些信息被遗漏：有些信息被人为因素或设备故障而被遗漏

3）属性值不存在：对某些对象来说某些属性值是不存在的

2、缺失值的影响

1）数据挖掘建模将会丢失大量的有用信息

2）数据模型所表现出的不确定性更加显著，模型中的规律更难把握

3）包含空值的数据会使建模过程陷入混乱，导致不可靠的输出。

异常值分析

检验数据是否有录入错误以及是否含有不合常理的数据。

异常值通常是指样本中的个别值，其数值明显偏离其余的观测值，异常值也叫离群点，异常值分析也叫作离群点分析。

1）简单统计量分析

可以先对数据做一个描述性统计，然后查看哪些数据是不合理的。

最常用的统计量是最大值和最小值，可用来判断某一变量的取值是否超出了合理的范围。

2）3 $\sigma$ 原则

若数据服从正态分布，在3 $\sigma$ 原则下，异常值被定义为一组测定值中与平均值 $\mu$ 的偏差超过3倍标准差 $\sigma$ 的值。

在正态分布的假设下，距离平均值3 $\sigma$ 之外的值出现的概率为 $P(|x- \mu |>3\sigma) \leqslant 0.003$ ，属于极个别的小概率事件。

若数据不服从正态分布，也可以用远离平均值得多少倍标准差来描述。

3)箱型图分析

箱型图的标准-->异常值 $x$ 通常被定义为： $x<Q_L-1.5IQR$ 或 $x>Q_U+1.5IQR$

其中， $Q_L$ 称为下四分位数，表示全部观察数据中有四份之一的数据取值比它小； $Q_U$ 称为上四分位数，表示全部观察数据中有四份之一的数据取值比它大； $IQR$ 称为四分位数间距，是上四分位数 $Q_U$ 与下四分位数 $Q_L$ 之差，其间包含了全部观察值的一半。

箱型图依据实际数据绘制，没有对数据做任何限制性要求（如服从某种特定的分布形式），它只是真实地表现数据分布的本来面貌；箱型图判断异常值得标准以四分位数和四分位距为基础，四分位数具有一定的鲁棒性：多达25%的数据可以变得任意远而不会很大的扰动四分位数，所以异常值不会对这个标准施加影响。

不一致性分析

数据的不一致性是指数据的矛盾性、不相容性。

不一致的数据主要发生在数据集成的过程中，这可能是由于被挖掘的数据是来至于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析与挖掘：数据探索(一）

数据质量分析：脏数据检查脏数据：缺失值异常值不一致的值重复数据及含有特殊符号（#，&amp;，￥）的数据缺失值分析：1、缺失值产生的原因1）有些信息暂时无法获取，或者获取信息的代价太大2）某些信息被遗漏：有些信息被人为因素或设备故障而被遗漏3）属性值不存在：对某些对象来说某些属性值是不存在的2、缺失值的影响1）数据挖掘建模将会丢失大量的有用信息...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。