数据分析第三篇——Pandas之缺失值处理

3.6 Pandas的缺失值处理

  1. 如何进行缺失值处理
    • 两种思路
      1. 删除缺失值
      2. 填补缺失值
  2. 缺失值处理实例

  • 3.6.1 如何处理nan
  • 3.6.2 缺失值处理实例

3.6.1 如何处理NaN

  1. 判断数据中是否存在NaN
    • pd.isnull(df)—返回布尔值构成的FataFrame
    • pd.notnull(df)—返回布尔值构成的DataFrame
  2. 处理缺失值的两种思路
    • 删除缺失值
      • df.dropna(inplace=False)—默认按行删除
    • 替换/插补缺失值
      • df.fillna(value, inplace=True)
  3. 不是缺失值NaN,有默认标记的
1. 判断是否存在NaN
import pandas as pd
data = [[None,1.0,2.0,3.0,4.0,None],
        [6.0,7.0,8.0,9.0,0.0,11.0],
        [12.0,13.0,14.0,15.0,16.0,17.0],
        [18.0,19.0,None,21.0,22.0,23.0]]
data_df = pd.DataFrame(data)
data_df
012345
0NaN1.02.03.04.0NaN
16.07.08.09.00.011.0
212.013.014.015.016.017.0
318.019.0NaN21.022.023.0
pd.isnull(data_df)
012345
0TrueFalseFalseFalseFalseTrue
1FalseFalseFalseFalseFalseFalse
2FalseFalseFalseFalseFalseFalse
3FalseFalseTrueFalseFalseFalse
import numpy as np
np.any(pd.isnull(data_df)) # 判断是否存在NaN——np.any()的用法:只要存在True,就返回True
True
pd.notnull(data_df)
012345
0FalseTrueTrueTrueTrueFalse
1TrueTrueTrueTrueTrueTrue
2TrueTrueTrueTrueTrueTrue
3TrueTrueFalseTrueTrueTrue
np.all(pd.notnull(data_df)) # 返回False,说明数据中存在缺失值
False
pd.isnull(data_df).any() # 判断每一个字段是否存在缺失值,存在的返回True
0     True
1    False
2     True
3    False
4    False
5     True
dtype: bool
pd.notnull(data_df).all() # 判断每一个字段是否存在缺失值,存在的字段返回False
0    False
1     True
2    False
3     True
4     True
5    False
dtype: bool
2. 处理缺失值的两种思路
1. 删除缺失值
data_df.dropna()
012345
16.07.08.09.00.011.0
212.013.014.015.016.017.0
2. 替换缺失值
data_df
012345
0NaN1.02.03.04.0NaN
16.07.08.09.00.011.0
212.013.014.015.016.017.0
318.019.0NaN21.022.023.0
data_df[0].fillna(data_df[0].mean(), inplace=True)
data_df[2].fillna(data_df[2].mean(), inplace=True)
data_df[5].fillna(data_df[5].mean(), inplace=True)
data_df
012345
012.01.02.03.04.017.0
16.07.08.09.00.011.0
212.013.014.015.016.017.0
318.019.08.021.022.023.0
3. 不是缺失值NaN,有默认标记的
  1. 替换——将特殊符号(如?)替换为np.nan
    • df.replace(to_replace=, value=)
      • to_replace:替换前的值
      • value:替换后的值
  2. 按照处理np.nan缺失值的步骤处理
import numpy as np
import pandas as pd
data = pd.read_csv('csv_txt.txt', sep=',', names=['one', 'two', 'three', 'four', 'five', 'six'])
data
onetwothreefourfivesix
0?1.02.03.04.0?
16.07.08.09.00.011.0
212.013.014.015.016.017.0
318.019.0?21.022.023.0
# 1)替换
data = data.replace(to_replace='?', value=np.nan)
data
onetwothreefourfivesix
0NaN1.02.03.04.0NaN
16.07.08.09.00.011.0
212.013.014.015.016.017.0
318.019.0NaN21.022.023.0
# 2)删除缺失值
data.dropna(inplace=True)
data
onetwothreefourfivesix
16.07.08.09.00.011.0
212.013.014.015.016.017.0
data.isnull().any()
one      False
two      False
three    False
four     False
five     False
six      False
dtype: bool
np.any(data.isnull())
False
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值