python输出数据缺失值_Python进行数据缺失值处理

最新推荐文章于 2024-03-30 14:55:16 发布

海纳易拓

最新推荐文章于 2024-03-30 14:55:16 发布

阅读量1.6k

点赞数 1

文章标签： python输出数据缺失值

本文链接：https://blog.csdn.net/weixin_42513512/article/details/113538366

版权

基础知识

空缺值处理的必要性和复杂性

数据缺失在许多研究领域都是一个复杂的问题，对于数据挖掘和研究人员来说，数据准备(Data Preparation，包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。然而在数据准备的过程中，数据质量差又是最常见而且令人头痛的问题，空缺值的存在，造成了以下影响：首先，系统丢失了大量的有用信息；其次，系统中所表现出的不确定性更加显著，系统中蕴涵的确定性成分更难把握；另外，包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。最后，使用存在空缺值的数据进行研究将会受到严重的质疑，研究结论也很难得到认可。

因此，本文针对不同类型的数据缺失值问题，进行了初步介绍并推荐了一些处理方法，进一步详细说明了带有季节变动趋势的时间序列数据空缺值填补在python中的实现，那我们就一起看一看吧。

缺失值产生的原因

缺失值的产生的原因多种多样，主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失，比如数据存储的失败，存储器损坏，机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失，比如，在市场调查中被访人拒绝透露相关问题的答案(例如询问工资和年龄等)，或者回答的问题是无效的，数据录入人员失误漏录了数据。

数据缺失机制

对不同类型的缺失值的处理方式是不相同的，因此，在对缺失数据进行处理前，了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量(属性)称为完全变量，数据集中含有缺失值的变量称为不完全变量，Little 和 Rubin定义了以下三种不同的数据缺失机制：

1、随机丢失(MAR，Missing at Random)：随机丢失意味着数据丢失的概率与丢失的数据本身无关，而仅与部分已观测到的数据有关。

2、完全随机丢失(MCAR，Missing Completely at Random)：数据丢失的概率与其假设值以及其他变量值都完全无关。

3、非随机丢失(MNAR，Missing not at Random)：有两种可能的情况。缺失值取决于其假设值(例如，高收入人群通常不希望在调查中透露他们的收入)；或者，缺失值取决于其他变量值(假设女性通常不想透露她们的年龄，则这里年龄变量缺失值受性别变量的影响)。

从缺失值的所属属性上讲，如果所有的缺失值都是同一属性࿰

最低0.47元/天解锁文章

海纳易拓

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python输出数据缺失值_Python进行数据缺失值处理

基础知识空缺值处理的必要性和复杂性01数据缺失在许多研究领域都是一个复杂的问题，对于数据挖掘和研究人员来说，数据准备(Data Preparation，包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。然而在数据准备的过程中，数据质量差又是最常见而且令人头痛的问题，空缺值的存在，造成了以下影响：首先，系统丢失了大量的有用信息；其次，系统中所表现出的不确定性更加显著，系统中蕴...
复制链接

扫一扫