Pandas学习总结——8.分类数据

本文详细介绍了Pandas中分类数据的创建、性质、排序及比较操作,包括category类型的创建方法、属性获取与修改,以及有序无序分类的转换和排序规则。通过实例解析了分类变量的比较,如与标量、等长序列和另一分类变量的比较条件。
摘要由CSDN通过智能技术生成

1 category的创建及其性质

1.1 分类变量的创建

四类创建方法:

  • Series
  • 对DataFrame指定类型
  • 使用内置Categorical类型
  • 使用cut函数
# Series方法创建
pd.Series(["a", "b", "c", "a"], dtype="category")

# 对DataFrame指定类型
temp_df = pd.DataFrame({
   'A':pd.Series(["a", "b", "c", "a"], dtype="category"),'B':list('abcd')})

# 使用内置Categorical类型
cat = pd.Categorical(["a", "b", "c", "a"], categories=['a','b','c'])
pd.Series(cat)

# 使用cut函数,默认使用区间类型为标签
pd.cut(np.random.randint(0,60,5), [0,10,30,60])
# 可指定字符为标签
pd.cut(np.random.randint(0,60,5), [0,10,30,60], right=False, labels=['0-10','10-30','30-60'])

1.2 分类变量的结构

包括三个部分,元素值(values)、分类类别(categories)、是否有序(order)。使用cut函数创建的分类变量默认为有序分类变量。
如何获取或修改这些属性?
(a)describe方法
该方法描述了一个分类序列的情况,包括非缺失值个数、元素值类别数(不是分类类别数)、最多次出现的元素及其频数

s = pd.Series(pd.Categorical(["a", "b", "c", "a",np.nan], categories=
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值