【pandas教程】pandas特性——类别类型

最新推荐文章于 2024-01-16 14:29:23 发布

鱼摆摆

最新推荐文章于 2024-01-16 14:29:23 发布

阅读量547

点赞数 1

分类专栏： pandas数据分析文章标签： python 数据分析

本文链接：https://blog.csdn.net/ljp7759325/article/details/124508372

版权

pandas数据分析专栏收录该内容

12 篇文章 2 订阅

订阅专栏

支持的类型

pandas dtype	Python类型	numpy类型	描述
object	str	string_, unicode_	文本
int64	int	int_, int8, int16, int32, int64, unit8, unit16, unit32, unit64	整数
float64	float	float_, float16, float32, float64	浮点数
bool	bool	bool_	布尔值
datetime64	datetime64[ns]	datetime	NA
datedelta[ns]	NA	NA	时间差
category	NA	NA	有限长度的文本值列

# 查看df各列数据类型
df.dtypes
# 查看df单列数据类型
df.dtype
# 修改单列数据类型
df['col'].astype('object')
# 修改多列数据类型
df[['col1', 'col2']].apply(pd.to_numeric)
# 字符串类型结合query使用时，要小心字符串类型的数值，必要时转型后在进行筛选
df['col'].astype('object').query('col == "1"')
df['col'].astype('int64').query('col == 1')

类别类型Categoricals

# Series创建category类型
s = pd.Series(['a','b','b','a','a','e'], dtype='category')

# DataFrame创建category类型
df =pd.DataFrame({"id":[1,2,3,4,5,6],"raw_grade":pd.Series(['a','b','b','a','a','e'], dtype='category')})

# astype创建category类型
df =pd.DataFrame({"id":[1,2,3,4,5,6],"raw_grade":['a','b','b','a','a','e']})
df["grade"]=df["raw_grade"].astype("category")

# 注意：使用.cat调用类别类型的相关方法前，需要该列为类别类型：使用astype('category')转换格式
# category类型描述信息
df['grade'].describe()

# 查看category类型
df['grade'].cat.categories

# 查看category类型是否有序
df['grade'].cat.ordered

# Series.cat.categories可以命名不同类型，如果为空，则为缺失类,如果非空，则必需与原分类长度一致
df["grade"].cat.categories =["very good","good","very bad"] # df["grade"].cat.categories是Index(['a', 'b', 'e'], dtype='object')

# Series.cat.set_categories重新排序各类别，并添加缺失类,若传入空list，则全部重置为缺省类，若传入list长度小于原category的Index，则未覆盖部分为缺省类，若传入list长度大于原category的Index，则多出部分为未使用类别
df["grade"]=df["grade"].cat.set_categories(["very bad","bad","medium","good","very good"])
df['grade']=df['grade'].cat.set_categories(["very bad","bad","medium","good","very good"], ordered=True)

# Series.cat.rename_categories重命名类别，可传入与原category Index长度相同的列表，也可传入与category对应的字典
df['grade'] = df['grade'].cat.rename_categories([f'new_{i}' for i in df['grade'].cat.categories])
df['grade'] = df['grade'].cat.rename_categories({'a1':'new_a1', 'b1':'new_b1', 'c1':'new_c1'})

# Series.cat.as_ordered将一个类别序列按照当前排序转换为有序序列
df['grade'] = df['grade'].cat.as_ordered()

# Series.cat.as_unordered将一个有序序列转换为无序序列
df['grade'] = df['grade'].cat.as_unordered()

# Series.cat.reorder_categories重新排序类别序列，传入的列表必需与原类别集合一致
df['grade'] = df['grade'].cat.reorder_categories(['a', 'e', 'b'], ordered=True)
df.sort_values(['grade'], ascending=False)

# 类别类型的优势在于排序，可以防止按照词汇排序
df.sort_values(by='grade')

#  按照类别分组groupby，即使类别为空，也会显示
df.groupby('grade').size()