Python数据分析学习笔记(二)——数据清洗及特征处理

一、缺失值的观察与处理

通常拿到的数据中含有很多缺失值,需要经过数据清洗达到可以分析的标准。
处理缺失值一般有三种思路:

  • 将缺失值置为一个常数

  • 使用函数DataFrame.fillna()
    可以通过常数填充,还可以通过字典填充不同常数
    参数:
    method:填充方法,ffill——用前一个非空缺值填充,bfill——用下一个空缺值填充
    limit:限制填充个数
    axis:修改填充方向

  • 将缺失值所在行删除

  • 使用函数DataFrme.dropna()
    参数:
    axis: 默认axis=0。0为按行删除,1为按列删除
    how: 默认 ‘any’。 ‘any’指带缺失值的所有行/列;'all’指清除一整行/列都是缺失值的行/列
    thresh: int,保留含有thresh个非nan值的行
    subset: 删除特定列中包含缺失值的行或列
    inplace: 默认False,不改动原数据

#观察缺失值
df.info()     #可以用于获取信息,得到数组非空值个数和数据类型的信息
df.isnull().sum()    #获取每个索引下的空值数
df[np.isnan(df['Age'])]=0    #注意np.nan == np.nan时会返回False

#处理缺失值——删除缺失值所在行
df.dropna()
#处理缺失值——用常数0填充缺失值
df.fillna()
df[df['Age']==None]=0

df[df['Age'].isnull<
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值