python输出数据 缺失值_Python进行数据缺失值处理

基础知识

空缺值处理的必要性和复杂性

01

数据缺失在许多研究领域都是一个复杂的问题,对于数据挖掘和研究人员来说,数据准备(Data Preparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。然而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题,空缺值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;其次,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;另外,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。最后,使用存在空缺值的数据进行研究将会受到严重的质疑,研究结论也很难得到认可。

因此,本文针对不同类型的数据缺失值问题,进行了初步介绍并推荐了一些处理方法,进一步详细说明了带有季节变动趋势的时间序列数据空缺值填补在python中的实现,那我们就一起看一看吧。

缺失值产生的原因

02

缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案(例如询问工资和年龄等),或者回答的问题是无效的,数据录入人员失误漏录了数据。 

数据缺失机制

03

对不同类型的缺失值的处理方式是不相同的,因此,在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量,Little 和 Rubin定义了以下三种不同的数据缺失机制:

1、随机丢失(MAR,Missing at Random):随机丢失意味着数据丢失的概率与丢失的数据本身无关,而仅与部分已观测到的数据有关。

2、完全随机丢失(MCAR,Missing Completely at Random):数据丢失的概率与其假设值以及其他变量值都完全无关。

3、非随机丢失(MNAR,Missing not at Random):有两种可能的情况。缺失值取决于其假设值(例如,高收入人群通常不希望在调查中透露他们的收入);或者,缺失值取决于其他变量值(假设女性通常不想透露她们的年龄,则这里年龄变量缺失值受性别变量的影响)。

从缺失值的所属属性上讲,如果所有的缺失值都是同一属性࿰

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值