Python数据分析——分类数据(自用)类似于枚举类型的添加、删除、存储空间的优化

12 篇文章 0 订阅
10 篇文章 0 订阅

分类是Pandas中的一种数据类型,通常实时的数据包括重复的文本列,例如:性别、国家和代码等特征总是重复的。分类变量只能采用有限的数量,而且通常是固定的数量。除了固定长度。分类数据可能有顺序,但不能执行数字操作。

分类数据类型在以下情况下非常有用:

①一个字符串变量,只包含几个不同的值,将这样的字符串转换为分类变量将会节省一些内存。

②变量的词汇顺序与逻辑顺序不同。通常转换为分类并指定类别上的顺序,排序和最大/最小将使用逻辑顺序,而不是词法顺序

③作为其他Python库的一个信号,这个列应该被当作一个分类变量(例如,使用合适的统计方法或plot类型)

 

创建一个分类对象

对象创建:在pandas对象创建中将dtype指定为’category’

 

附加一个新类别:

删除一个类别:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值