数据分析学习总结笔记05:缺失值分析及处理

1 缺失值概念

在数据收集过程中,由于各种原因可能导致数据收集不全,就会产生缺失值,且这种情况往往无法避免。
因此,缺失值分析是数据处理工作中常见的问题之一,如果处理不当,会导致部分分析过程简单地从分析中丢弃这些有缺失的个案;也可能会使分析结果精度降低,出现偏倚甚至是错误的结论。
另外,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化,部分分析过程无法完成。
缺失值分析有助于解决出不完整的数据造成的若干问题,尽可能全面、有效地利用整个数据库1

2 缺失值分析的类别

2.1 按数据缺失形式划分

(1)单元缺失:针对需调查的个案进行调查而没有得到个案信息。这种缺失在数据分析阶段常常无能为力。
(2)项目缺失:在调查内容中某些变量的观测结果有缺失。

2.2 按缺失机制与方式划分

(1)完全随机缺失:已评价的结果或即将进行的评价结果中,研究对象的缺失率是独立的。即,缺失现象完全随机发生,与自身或其他变量的取值无关。
(2)随机缺失:缺失数据的发生与数据库中其他无缺失变量的取值有关。某一观察值的缺失的概率仅依赖已有的观察结果,不依赖未观察到的结果。这是最常见的缺失机制。
(2)非随机缺失:数据的缺失不仅与其他

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值