pandas入门(八)

上一篇:pandas入门(七)

唯一值、值计数以及成员资格

可以从一维Series的值中抽取信息,第一个函数是unique,它可以得到Series中的唯一值数组
在这里插入图片描述

=====================================
value_counts用于计算一个Series中各值出现的频率
在这里插入图片描述

=====================================
value_counts还是一个顶级 pandas方法,可用于任何数组或序列
在这里插入图片描述

=====================================
isin用于判断矢量化集合的成员资格,可用于过滤Series中或DataFrame列中数据的子集
在这里插入图片描述

=====================================
与isin类似的是Index.get_indexer方法,它可以给你一个索引数组,从可能包含重 复值的数组到另一个不同值的数组
在这里插入图片描述

=====================================
得到DataFrame中多个相关列的一张柱状图
在这里插入图片描述

=====================================
将pandas.value_counts传给该DataFrame的apply函数,就会出现。
结果中的行标签是所有列的唯一值。后面的频率值是每个列中这些值的相应 计数
在这里插入图片描述

处理缺失数据

pandas的目标之一就是尽量轻松 地处理缺失数据。例如,pandas对象的所有描述性统计默认都不包括缺失数据。 缺失数据在pandas中呈现的方式有些不完美,但对于大多数用户可以保证功能正 常。对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。我 们称其为哨兵值,可以方便的检测出来
在这里插入图片描述

=====================================
在统计应用中,NA数据可能是不存在的数据或者虽然存在,但是没 有观察到(例如,数据采集中发生了问题)。当进行数据清洗以进行分析时,最好 直接对缺失数据进行分析,以判断数据采集的问题或缺失数据可能导致的偏差。 Python内置的None值在对象数组中也可以作为NA
在这里插入图片描述

++++++++++++++++++++++++++++++++++++

pandas项目中还在不断优化内部细节以更好处理缺失数据,像用户API功能,例如 pandas.isnull,去除了许多恼人的细节。

下一篇:pandas入门(九)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值