数据分析之Pandas缺失数据处理

最新推荐文章于 2024-04-24 11:55:26 发布

Datawhale

最新推荐文章于 2024-04-24 11:55:26 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/Datawhale/article/details/107096422

版权

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

 Datawhale干货 
作者：耿远昊，Datawhale成员，华东师范大学

Pandas 是一个强大的分析结构化数据的工具集，它的使用基础是Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也提供数据清洗功能。
在往期文章中，已经详细讲解了Pandas做分析数据的四种基本操作：索引、分组、变形及合并。现在，开始正式介绍Pandas的数据结构类型：缺失数据、文本数据、分类数据和时序数据。
在接下来的两章中，会接触到数据预处理中比较麻烦的类型，即缺失数据和文本数据（尤其是混杂型文本）。今天，我们首先对缺失数据进行系统地梳理。
 本文目录

              1. 基础概念
                  1.1. 缺失值分类
                  1.2. 缺失值处理方法
2. 缺失观测及其类型
    2.1. 了解缺失信息
    2.2. 三种缺失符号
    2.3. Nullable类型与NA符号

    2.4. NA的特性

    2.5. convert_dtypes方法

              3. 缺失数据的运算与分组 
                3.1. 加号与乘号规则
                  3.2. groupby方法中的缺失值
               4. 填充与剔除
                4.1. fillna方法
                  4.2. dropna方法
               5. 插值

    5.1. 线性插值
    5.2. 高级插值方法      5.3. interpolate中的限制参数 6. 问题及练习    6.1. 问题
    6.2. 练习
基础概念首先，对缺失值分类和缺失值处理方法进行讲解。

缺失值的分类
按照数据缺失机制可分为：
可忽略的缺失

完全随机缺失(missing completely at random, MCAR)，所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关
随机缺失(missing at random, MAR)，假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的。
不可忽略的缺失(non-ignorable missing ,NIM) 或非随机缺失(not missing at random, NMAR, or, missing not at random, MNAR)，如果不完全变量中数据的缺失既依赖于完全变量又依赖于不完全变量本身,这种缺失即为不可忽略的缺失。
【注意】：Panda读取的数值型数据，缺失数据显示“NaN”（not a number）。数据值的处理方法
主要就是两种方法：
删除存在缺失值的个案；
缺失值插补。
【注意】缺失值的插补只能用于客观数据。由于主观数据受人的影响，其所涉及的真实值不能保证。1、删除含有缺失值的个案（2种方法）（1）简单删除法简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标，那么这个方法是最有效的。
（2）权重法当缺失值的类型为非完全随机缺失的时候，可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后，将完整的数据个案赋予不同的权重，个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量，那么这种方法可以有效减小偏差。如果解释变量和权重并不相关，它并不能减小偏差。对于存在多个属性缺失的情况，就需要对不同属性的缺失组合赋不同的权重，这将大大增加计算的难度，降低预测的准确性，这时权重法并不理想。
2、可能值插补缺失值
【思想来源】：以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。
（1）均值插补属于单值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的，就以该属性存在值的平均值来插补缺失的值；如果缺失值是非定距型的，就用该属性的众数来补齐缺失的值。（2）利用同类均值插补
属于单值插补。用层次聚类模型预测缺失变量的类型，再以该类型的均值插补。假设为信息完全的变量，为存在缺失值的变量，那么首先对或其子集行聚类，然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和做分析，那么这种插补方法将在模型中引入自相关，给分析造成障碍。（3）极大似然估计（Max Likelihood ,ML）
在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，那么通过观测数据的边际分布可以对未知参数进行极大似然估计（Little and Rubin）。这种方法也被称为忽略缺失值的极大似然估计，对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization，EM）。该方法比删除个案和单值插补更有吸引力，前提是适用于大样本，有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。（4）多重插补（Multiple Imputation，MI）
多值插补的思想来源于贝叶斯估计，认为待插补