数据清洗 dropna drop fillna

本文详细介绍了Pandas库中数据清洗的常用方法,包括dropna()和drop()函数的参数用法,以及如何使用fillna()填充缺失值。通过实例展示了如何删除含有缺失值的行或列,以及如何利用中位数填充缺失数据。这些技巧对于数据预处理至关重要。
摘要由CSDN通过智能技术生成

机器学习最常用的数据清洗之 dropna drop fillna,存一份方便查资料用!

dropna
# axis=0 删除行,axis=1,删除列
# how=any, 只要有缺失值,就删除该行或该列,how=all,所有值缺失才删除
# thresh 至少有thresh个非缺失值,否则删除
# subset 在哪些列中查看是否有缺失值
# inplace 是否在原数据上操作,真则在原始数据上改,否返回新的copy,去掉了缺失值的作为副本
df.dropna(axis=0, how='any', thresh=None,subset=None,
			inplace=False)
drop
# drop
# labels 按标签要删除的行或列
# axis=0,行,=1表示列
# index\columns 指定行或列,df.drop(index=1) 等价于 df.drop(1,axis=0)
# level 针对多级标签,多级标签计算时,从0开始
# inplace 同 dropna 用法
# errors:如果传入标签不存在则会报错,可选择raise,ignore,default=raise,ignore则抑制错误丢弃现有标签
drop(labels=None, axis=0,index=None, columns=None, 
		level=None, inplace=False, errors='raise')
fillna
# fillna
# value: scalar, dict, Series, DataFrame
# method: 'backfill', 'bfill', 'pad', 'ffill', None
# method 例如在列上操作,ffill/pad表示用前一个值填充缺失值, backfill/bfill 表示用后一个值来填充缺失值
# limit:填充的缺失值个数限制
# downcast: dict, default=None ,即选dict,可以使类型向下转换,float64->int64
fillna(value=None, method=None, axis=None, inplace=None, 
		limit=None, downcast=None, **kwargs)
参考示例
# 实例 《蜥蜴书》
housing.dropna(subset=["total_bedrooms"])
housing.drop("total_bedrooms",axis=1)

# 求训练集的中位数
median = housing["total_bedrooms"].median()
# 中位数填充
housing["total_bedrooms"].fillna(median)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值