唯一值、值计数以及成员资格
可以从一维Series的值中抽取信息,第一个函数是unique,它可以得到Series中的唯一值数组
=====================================
value_counts用于计算一个Series中各值出现的频率
=====================================
value_counts还是一个顶级 pandas方法,可用于任何数组或序列
=====================================
isin用于判断矢量化集合的成员资格,可用于过滤Series中或DataFrame列中数据的子集
=====================================
与isin类似的是Index.get_indexer方法,它可以给你一个索引数组,从可能包含重 复值的数组到另一个不同值的数组
=====================================
得到DataFrame中多个相关列的一张柱状图
=====================================
将pandas.value_counts传给该DataFrame的apply函数,就会出现。
结果中的行标签是所有列的唯一值。后面的频率值是每个列中这些值的相应 计数
处理缺失数据
pandas的目标之一就是尽量轻松 地处理缺失数据。例如,pandas对象的所有描述性统计默认都不包括缺失数据。 缺失数据在pandas中呈现的方式有些不完美,但对于大多数用户可以保证功能正 常。对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。我 们称其为哨兵值,可以方便的检测出来
=====================================
在统计应用中,NA数据可能是不存在的数据或者虽然存在,但是没 有观察到(例如,数据采集中发生了问题)。当进行数据清洗以进行分析时,最好 直接对缺失数据进行分析,以判断数据采集的问题或缺失数据可能导致的偏差。 Python内置的None值在对象数组中也可以作为NA
++++++++++++++++++++++++++++++++++++
pandas项目中还在不断优化内部细节以更好处理缺失数据,像用户API功能,例如 pandas.isnull,去除了许多恼人的细节。