数据预处理 2.2 缺失值处理

本文详细介绍了如何使用Pandas处理数据中的缺失值,包括NaN的介绍、加载数据时处理缺失值的参数设置,以及使用Missingno库进行缺失值的可视化和各种处理方法,如按行/列删除、填充以及时序缺失值处理。
摘要由CSDN通过智能技术生成

目录

1.pandas缺失值NaN简介

2.加载包含缺失值的数据

2.1 keep_default_na=False参数

2.2 na_values参数

3.缺失值处理

3.1使用Missingno库对缺失值的情况进行可视化探查

3.1.1安装missingno并初步查看

3.1.2缺失值数量可视化(      missing.bar(df)       )

3.1.3缺失值位置的可视化(       missingno.matrix(df)         )

3.1.4 随机取出数据查看缺失值(      df.sample(n)     )

3.1.5 缺失值之间的相关性 (       missingno.heatmap(df)       )

3.2缺失值处理

3.4.1 按行删除缺失值(dropna())

3.4.2 按列删除缺失值 (drop())

3.4.3填充缺失值(非时许缺失值)df.fiillna(填充值,inplace=True/False)

3.4.4 时序缺失值处理  df.fillna(method,inplace)


1.pandas缺失值NaN简介

在实际处理数据中,会存在很多缺失值。

缺失值形式:

  1. 在数据库中,确实值为NULL
  2. 在某些编程语言中用NA或None
  3. 在缺失值也可能是空字符串' '或数值0
  4. 在pandas中使用NaN表示缺失值

pandas中的NaN值来自NumPy库(因此需要导入numpy库)

NumPy中缺失值有几种表示形式:NaN,NAN,nan,他们都一样

#导入numpy库并输出空值
import numpy as np
print(np.nan)
print(np.NAN)
print(np.NaN)

缺失值和其他类型的数据不同,它毫无意义,NaN不等于0,也不等于空字符串

两个NaN也不相同

pandas判断是否为缺失值的方法:

方法 说明
pd.isnull(obj)或pd.isna(obj) 判断obj是否为缺失值

                                                           

 

2.加载包含缺失值的数据

缺失值的来源:1)数据集中本身包含缺失值

                         2)数据整理过程中产生的缺失值,如merge、join等操作

2.1 keep_default_na=False参数

pandas加载数据时,可以设置keep_default_na=False参数,不显示默认缺失值。

pd.read_csv('./data/survey_visited.csv',keep_default_na=False)

2.2 na_values参数

pandas加载数据时,也可以设置na_values参数,指定加载数据时把什么当作缺失值

pd.read_csv('./data/survey_visited.csv',na_values='DR-1')

3.缺失值处理

3.1使用Missingno库对缺失值的情况进行可视化探查

3.1.1安装missingno并初步查看

1)完全

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值