描述性统计的概述与计算—唯一值、计数和成员属性
一、唯一值、计数和集合成员属性方法
方法 | 描述 |
---|---|
isin | 计算表征 Series 中每个值是否包含于传入序列的布尔值数组 |
match | 计算数组中每个值的整数索引,形成一个唯一值数组。有助于数据对齐和 join 类型的操作 |
unique | 计算 Series 值中的唯一值数组,按照观察顺序返回 |
value_counts | 返回一个 Series,索引是唯一值序列,值是计数个数,按照个数降序排序 |
二、示例
1、issin():计算表征 Series 中每个值是否包含于传入序列的布尔值数组
(1) isin 执行向量化的成员属性检查,还可以将数据集以 Series 或 DataFrame 一列的形式过滤为数据集的值子集
(2) 与 isin 相关的 Index.get_indexer 方法,可以提供一个索引数组,这个索引数组可以将可能非唯一值数组转换为另一个唯一值数组
2、match():计算数组中每个值的整数索引,形成一个唯一值数组。有助于数据对齐和 join 类型的操作
3、unique():计算 Series 值中的唯一值数组,按照观察顺序返回
唯一值并不一定按照排序好的顺序返回,但是如果有需要的话可以进行排序(uniques.sort()):
4、value_counts():返回一个 Series,索引是唯一值序列,值是计数个数,按照个数降序排序
value_counts() 计算 Series 包含的值的个数:
value_counts() 也是有效的 pandas 顶层方法,可以用于任意数组或序列:
计算 DataFrame 多个相关列的直方图,将 pandas.value_counts 传入 DataFrame 的 apply 函数:
结果中的行标签是所有列中出现的不同值,数值则是这些不同值在每个列中出现的次数。