第7章 数据清洗和准备

7.1 处理缺失数据

  • np.nan: 表示缺失数据,可通过isnull()函数检测
出理缺失数据的函数

在这里插入图片描述

滤除缺失数据

通过dropna方法,返回一个近含非空数据和索引值的Series
在这里插入图片描述
等价于
在这里插入图片描述
dropna默认丢弃任何含有na的行,通过传入how = all将只丢弃全为NA的那些行。

thresh参数可设置清洗的阈值

填充缺失数据

主要方法是fillna方法,通过df.fillna(0)方法将缺失值设置为0

若是通过一个字典调用fillna,就可以实现对不同的列填充不同的值:

在这里插入图片描述
fillna默认会返回新对象,但也可以对现有对象进行就地修改:

在这里插入图片描述
通过method选项,传入method='ffill’向前填充,通过limit设置填充的个数。
在这里插入图片描述

7.2 数据转换

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行(前面出现过的行)。

drop_duplicates方法,返回一个DataFrame,重复的数组会标为False.

利用函数或映射进行数据转换

替换值

replace(被替换值,替换的值)

如果要一次性替换多个值,可以传入一个由待替换值组成的列表以及一个替换值:
data.replace([-999, -1000], np.nan)

替换的也可以用一个列表。

重命名轴索引

跟Series中的值一样,轴标签也可以通过函数或映射进行转换,从而得到一个新的不同标签的对象。轴还可以被就地修改,而无需新建一个数据结构。

检测和过滤异常值

describe()方法,输出统计数据

在这里插入图片描述
根据数据的值是正还是负,np.sign(data)可以生成1或-1。

排列和随机采样

利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排 列工作(permuting,随机重排序)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值