Pandas第6章:处理缺失数据

本文介绍了Pandas中处理缺失数据的方法,包括查看缺失值、理解缺失值的三种符号、如何过滤、填充和删除缺失值。同时,提供了两个实战练习,涉及根据列类型读入数据、选择缺失值行、转换数据为缺失值以及对数据集的统计分析和插值处理。
摘要由CSDN通过智能技术生成

6.1缺失值查看

  • isna()isnull():如果是缺失值则返回True,否则返回False
  • notna():如果不是缺失值则返回True,否则返回False
  • info():输出整个表所有列的数据类型
  • 常用操作:
df.isna().sum()	  #每列有多少缺失值
df.info()       #可以统计缺失值数据还可以获得数据类型
df[df['Physics'].isna()]		#查看某列'Physics',有缺失值的所在行
df[df.notna().all(1)]			#挑出所有非缺失值的行
df[df.notna().any(1)]			#使用all就是全部非缺失值,是any就是至少有一个不是缺失值

6.2缺失值符号

三种符号

  • np.nan

    • 特点1: 不等于自己:np.nan 不能通过判断 自己是否等于自己 的方式 捕获,如下:
     np.nan == np.nan	
    
    • 特点2: 强行转化:导致数据集读入时,即使原来是整数的列,只要有np.nan就会变为浮点型
      在这里插入图片描述
  • None

    • 特点1:等于自己
    • 特点2:布尔值为False
  • NaT

    • 特点1: NaT是针对时间序列的缺失值,是Pandas的内置类型
    • 特点2: 可以完全看做时序版本的np.nan,与自己不等,且使用equals是也会被跳过

Nullable类型与NA符号

  • Nullable类型
    • 特点1: 它与原来标记int上的符号区别在于首字母大写:‘Int’
  • NA特性
    • 特点1:统一缺失值:目的是为了解决之前的混乱局面,前面提到的三种缺失值都会被替换为统一的NA符号,且不改变数据类型
    • 特点2:取值不明直接报错
      在这里插入图片描述

6.3过滤、填充与删除

  • 过滤&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值