Datawhale-动手学数据分析-Task2

第二章数据清理及特征处理

  1. .dropna() 函数 官方文档🔗
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
参数功能
axisaxis 确定是否删除包含缺失值的行或列
axis = 0 时删除包含缺失值的(默认值)
axis = 1 时删除包含缺失值的
howhow 确定是行/列中均为 NaN 或者有 NaN 就将此行/列删去
how = 'any' 时删除缺失值的行/列(默认值)
how = 'all' 时删除全是缺失值的行/列
thresh(可选)thresh = n(←int) 可以选择至少保留多少行数据
subset(可选)在哪几列中删去含有 NaN 值的行/列
inplace是否直接在原处修改(默认值为False
  1. .fillna() 函数 官方文档🔗
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
参数功能
value用于填充 NaN 的值可以是 scalar(标量), dict, Series, or DataFrame
methodpad / ffill 用前面行/列值,填充后面的 NaN
backfill / bfill 用后面行/列值,填充前面的 NaN
默认值为 None
axis.dropna()
inplace.dropna()
limitmethod 有设定,如果存在多个连续NaN 值,每段最多填充前 limit 个空值
method 未设定,如果存在多个的 NaN 值,每段最多填充前 limit 个空值
默认值 None
downcast尝试向下转换为适当的相等类型
默认值 None
  1. 【思考】检索空缺值用np.nan,None以及.isnull()哪个更好,这是为什么?如果其中某个方式无法找到缺失值,原因又是为什么?
    A:应该是 np.nan 更好 看其他博客解释因为Pandas的底层为Numpy。
    如答案中的 df[df['Age']==None]=0 就没有成功将Age列的 NaN 值转换成0,因为他们两个的类型不一样

  2. 分箱操作:按照特定的条件放到一个指定容器里,主要针对于连续变量。分为有监督 .cut()🔗 和无监督 .qcut()🔗

  3. 处理字符数据 官方文档🔗

Series.str.extract(pat(Regular expression), flags=0, expand=True)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值