分类是Pandas中的一种数据类型,通常实时的数据包括重复的文本列,例如:性别、国家和代码等特征总是重复的。分类变量只能采用有限的数量,而且通常是固定的数量。除了固定长度。分类数据可能有顺序,但不能执行数字操作。
分类数据类型在以下情况下非常有用:
①一个字符串变量,只包含几个不同的值,将这样的字符串转换为分类变量将会节省一些内存。
②变量的词汇顺序与逻辑顺序不同。通常转换为分类并指定类别上的顺序,排序和最大/最小将使用逻辑顺序,而不是词法顺序
③作为其他Python库的一个信号,这个列应该被当作一个分类变量(例如,使用合适的统计方法或plot类型)
创建一个分类对象
对象创建:在pandas对象创建中将dtype指定为’category’
附加一个新类别:
删除一个类别: