一、分类变量的结构
一个分类变量包括三个部分,元素值(values)、分类类别(categories)、是否有序(order)
从上面可以看出,使用cut函数创建的分类变量默认为有序分类变量
(一)获取分类属性
(a)describe方法
该方法描述了一个分类序列的情况,包括非缺失值个数、元素值类别数(不是分类类别数)、最多次出现的元素及其频数。比如:
In: s = pd.Series(pd.Categorical(["a", "b", "c", "a",np.nan], categories=['a','b','c','d']))
s.describe()
out: count 4
unique 3
top a
freq 2
dtype: object
(b)categories和ordered属性
查看分类类别和是否排序
(二)修改分类属性
(a)利用set_categories修改
修改分类,但本身值不会变化。比如:
In:s = pd.Series(pd.Categorical(["a", "b", "c", "a",np.nan], categories=['a','b&#