分类数据
一、cat对象
属性
category类型,使用户能够主力分类类型的变量,将普通序列转化为分类变量用astype方法。
对一个分类类型的Series中的cat对象类似于上一章的str对象
有两个组成部分,一个是index,另一个为是否有序
每一个序列会被赋予唯一的整数编号,取决于cat.categories
中的顺序,通过cat.codes
来访问
增删改
增加:add_categories
删除:remove_categories
,删除原来序列中存在的类后,此类再次查询时为缺失
设置新序列:set_categories
设置新的序列,若序列中没有此类则为缺失
删除未出现在序列中的类别: remove_unused_categories
改序列名:rename_categories
二、有序分类
序的建立
有序类别:as_ordered
无序类别:as_unordered
指定序列顺序:reorder_categories
排序与比较
将序列变量进行排序后,可以通过sort_index, sort_values
进行排序
比较有两种:
一是:==,!=
进行标量或长度的对比
二是:<,<=,>,>=
进行原序列排序的对比
返回值为布尔值
三、区间类别
利用cut和qcut进行区间构造
最重要的参数是 bins
,如果传入整数 n ,则代表把整个传入数组的按照最大和最小值等间距地分为 n 段
bins
的另一个常见用法是指定区间分割点的列表(使用 np.infty
可以表示无穷大)
labels