pandas用众数填充缺失值_Python数据分析之pandas学习(三)

本文介绍了pandas库中处理缺失值的方法,包括删除法、替补法,重点讲述了使用众数填充缺失值。还详细探讨了数据透视表的使用,通过pivot_table函数实现不同层次的统计汇总,并展示了如何转换为列联表形式。同时,提到了多层索引在序列和数据框中的应用,以增强数据处理能力。
摘要由CSDN通过智能技术生成

有关pandas模块的学习与应用主要介绍以下8个部分:

1、数据结构简介:DataFrame和Series

2、数据索引index

3、利用pandas查询数据

4、利用pandas的DataFrames进行统计分析

5、利用pandas实现SQL操作

6、利用pandas进行缺失值的处理

7、利用pandas实现Excel的数据透视表功能

8、多层索引的使用

我们在Python数据分析之pandas学习(二)中已经介绍到了第五部分的利用pandas实现SQL操作,我们接着往下讲pandas模块中的其他的知识点。

六、缺失值处理

现实生活中的数据是非常杂乱的,其中缺失值也是非常常见的,对于缺失值的存在可能会影响到后期的数据分析或挖掘工作,那么我们该如何处理这些缺失值呢?常用的有三大类方法,即删除法、填补法和插值法。

删除法:当数据中的某个变量大部分值都是缺失值,可以考虑删除改变量;当缺失值是随机分布的,且缺失的数量并不是很多是,也可以删除这些缺失的观测。

替补法:对于连续型变量,如果变量的分布近似或就是正态分布的话,可以用均值替代那些缺失值;如果变量是有偏的,可以使用中位数来代替那些缺失值;对于离散型变量,我们一般用众数去替换那些存在缺失的观测。

插补法:插补法是基于蒙特卡洛模拟法,结合线性模型、广义线性模型、决策树等方法计算出来的预测值替换缺失值。

我们这里就介绍简单的删除法和替补法:

57d4bac984056.jpg

这是一组含有缺失值的序列,我们可以结合sum函数和isnull函数来检测数据中含有多少缺失值:

1.In [130]: sum(pd.isnull(s))

2.Out[130]: 9

直接删除缺失值

57d4bb2da9530.jpg

默认情况下,dropna会删除任何含有缺失值的行,我们再构造一个数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器学习机器
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值