【Python系列专栏】第六十二篇 Python中 Pandas 缺失值处理

最新推荐文章于 2022-08-09 11:06:56 发布

Mrrunsen

最新推荐文章于 2022-08-09 11:06:56 发布

阅读量442

点赞数

分类专栏： Python 文章标签： python 数据分析机器学习大数据 java

本文链接：https://blog.csdn.net/Mrrunsen/article/details/116466375

版权

Python 专栏收录该内容

77 篇文章 9 订阅

订阅专栏

本文介绍了处理数据中缺失值的常见方法，包括删除法、替补法和插补法。删除法分为删除列和删除行，替补法涉及使用均值、中位数或众数填充，而插补法可通过预测模型进行填充。示例展示了如何使用Pandas库进行操作，如fillna()函数的使用，以及不同填充策略的应用。强调了在实际操作中选择合适的填充方式以保持数据的合理性的重要性。

摘要由CSDN通过智能技术生成

文章目录

- 缺失值处理

缺失值处理

现实生活中的数据是非常杂乱的，其中缺失值也是非常常见的，对于缺失值的存在可能会影响到后期的数据分析或挖掘工作，那么我们该如何处理这些缺失值呢？常用的有三大类方法，即删除法、填补法和插值法。

删除法

当数据中的某个变量大部分值都是缺失值，可以考虑删除改变量（删除列）当缺失值是随机分布的，且缺失的数量并不是很多是，也可以删除这些缺失的观测（删除行）。

替补法

对于连续型变量，如果变量的分布近似或就是正态分布的话，可以用均值替代那些缺失值；如果变量是有偏的，可以使用中位数来代替那些缺失值；对于离散型变量，我们一般用众数去替换那些存在缺失的观测。

插补法

插补法是基于蒙特卡洛模拟法，结合线性模型、广义线性模型、决策树等方法计算出来的预测值替换缺失值。

我们这里就介绍简单的删除法和替补法：

g18

这是一组含有缺失值的序列，我们可以结合sum函数和isnull函数来检测数据中含有多少缺失值：

In [130]: sum(pd.isnull(s))
Out[130]: 9

直接删除缺失值

g19

默认情况下，dropna会删除任何含有缺失值的行，我们再构造一个数据框试试：

返回结果表明，数据中只要含有缺失值NaN,该数据行就会被删除，如果使用参数 how='all'，则表明只删除所有行为缺失值的观测。

g20

补充一个对比例子：

>>> df  = pd.DataFrame({'x1':[0,1,None,3,None],'x2':[None,1,None,None,4],'x3':[0,None,None,3,4]})
>>> df
    x1   x2   x3
0  0.0  NaN  0.0
1  1.0  1.0  NaN
2  NaN  NaN  NaN
3  3.0  NaN  3.0
4  NaN  4.0  4.0

>>> df.dropna(how='all') # 只有全部列都为NaN的行被删掉
    x1   x2   x3
0  0.0  NaN  0.0
1  1.0  1.0  NaN
3  3.0  NaN  3.0
4  NaN  4.0  4.0

>>> df.dropna() # 只要有一列包含NaN就会删除掉
Empty DataFrame
Columns: [x1, x2, x3]
Index: []