pandas组队学习-Task8 分类类型

最新推荐文章于 2023-01-17 16:47:05 发布

Zee_Chao

最新推荐文章于 2023-01-17 16:47:05 发布

阅读量251

点赞数

分类专栏： Datawhale Team Learning 文章标签： pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zee_Chao/article/details/106982558

版权

Datawhale Team Learning 专栏收录该内容

27 篇文章 1 订阅

订阅专栏

目录

1. 学习内容

2. 准备工作

3. 分类变量的创建及其性质

3.2.1 查看分类类别以及是否有序

3.2.2 修改类别

3.2.3 添加类别

3.2.4 删除类别

4. 分类变量的排序

4.1 序的建立与退化

5. 分类变量的比较操作

5.1 与标量或等长序列的比较

5.2 与另一分类变量的比较

5.2.1 等式判别

5.2.2 不等式判别

1. 学习内容

1. 学习分类类型的创建和性质

2. 学会对分类类型进行排序操作和比较操作

本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%89

2. 准备工作

import pandas as pd
import numpy as np

df = pd.read_csv('data/table.csv')
df.head()

  School Class    ID Gender   Address  Height  Weight  Math Physics
0    S_1   C_1  1101      M  street_1     173      63  34.0      A+
1    S_1   C_1  1102      F  street_2     192      73  32.5      B+
2    S_1   C_1  1103      M  street_2     186      82  87.2      B+
3    S_1   C_1  1104      F  street_2     167      81  80.4      B-
4    S_1   C_1  1105      F  street_4     159      64  84.8      B+

3. 分类变量的创建及其性质

3.1 创建

分类变量有很多种创建方法：从序列中创建，从表格中指定列创建，利用内置Categorical类型创建和利用cut()方法进行创建。

pd.Series(["a", "b", "c", "a"], dtype = "category")

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

temp_df = pd.DataFrame({'A': pd.Series(["a", "b", "c", "a"], \
                                       dtype = "category"), 'B': list('abcd')})
temp_df.dtypes

A    category
B      object
dtype: object

cat = pd.Categorical(["a", "b", "c", "a"], categories = ['a', 'b', 'c'])
pd.Series(cat)

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

# 默认以区间为标签，不过也可以指定某种字符为标签
pd.cut(np.random.randint(0, 60, 5), [0, 10, 30, 60])

[(0, 10], (30, 60], (30, 60], (30, 60], (30, 60]]
Categories (3, interval[int64]): [(0, 10] < (10, 30] < (30, 60]]

pd.cut(np.random.randint(0, 60, 5), [0, 10, 30, 60], \
       right = False, labels = ['0-10', '10-30', '30-60'])

[10-30, 0-10, 30-60, 0-10, 30-60]
Categories (3, object): [0-10 < 10-30 < 30-60]

3.2 性质

一个分类变量包括三个部分，元素值（values）、分类类别（categories）、是否有序（order）使用cut函数创建的分类变量默认为有序分类变量。

s = pd.Series(pd.Categorical(["a", "b", "c", "a", np.nan], \
                             categories = ['a', 'b', 'c', 'd']))
s.describe()

count     4
unique    3
top       a
freq      2
dtype: object

3.2.1 查看分类类别以及是否有序

print(s.cat.categories)
print(s.cat.ordered)

Index(['a', 'b', 'c', 'd'], dtype='object')
False

3.2.2 修改类别

# 利用set_categories修改。修改分类，但本身值不会变化
s = pd.Series(pd.Categorical(["a", "b", "c", "a", np.nan], \
                             categories = ['a', 'b', 'c', 'd']))
s.cat.set_categories(['new_a', 'c'])

0    NaN
1    NaN
2      c
3    NaN
4    NaN
dtype: category
Categories (2, object): [new_a, c]

# 利用rename_categories修改。需要注意的是该方法会把值和分类同时修改
s = pd.Series(pd.Categorical(["a", "b", "c", "a", np.nan], \
                             categories = ['a', 'b', 'c', 'd']))
s.cat.rename_categories(['new_%s' % i for i in s.cat.categories])

0    new_a
1    new_b
2    new_c
3    new_a
4      NaN
dtype: category
Categories (4, object): [new_a, new_b, new_c, new_d]

# 利用字典修改值
s.cat.rename_categories({'a': 'new_a', 'b': 'new_b'})

0    new_a
1    new_b
2        c
3    new_a
4      NaN
dtype: category
Categories (4, object): [new_a, new_b, c, d]

3.2.3 添加类别

s = pd.Series(pd.Categorical(["a", "b", "c", "a", np.nan], \
                             categories = ['a', 'b', 'c', 'd']))
s.cat.add_categories(['e'])

0      a
1      b
2      c
3      a
4    NaN
dtype: category
Categories (5, object): [a, b, c, d, e]

3.2.4 删除类别

s = pd.Series(pd.Categorical(["a", "b", "c", "a", np.nan], \
                             categories = ['a', 'b', 'c', 'd']))
s.cat.remove_categories(['d'])

0      a
1      b
2      c
3      a
4    NaN
dtype: category
Categories (3, object): [a, b, c]

# 删除元素值未出现的分类类型
s = pd.Series(pd.Categorical(["a", "b", "c", "a", np.nan], \
                             categories = ['a', 'b', 'c', 'd']))
s.cat.remove_unused_categories()

0      a
1      b
2      c
3      a
4    NaN
dtype: category
Categories (3, object): [a, b, c]

4. 分类变量的排序

4.1 序的建立与退化

4.1.2 建立

s = pd.Series(["a", "d", "c", "a"]).astype('category').cat.as_ordered()
s

0    a
1    d
2    c
3    a
dtype: category
Categories (3, object): [a < c < d]

s = pd.Series(["a", "d", "c", "a"]).astype('category')
s.cat.set_categories(['a', 'c', 'd'], ordered = True)

0    a
1    d
2    c
3    a
dtype: category
Categories (3, object): [a < c < d]

# 这个方法的特点在于，新设置的分类必须与原分类为同一集合
s = pd.Series(["a", "d", "c", "a"]).astype('category')
s.cat.reorder_categories(['a', 'c', 'd'],ordered = True)

0    a
1    d
2    c
3    a
dtype: category
Categories (3, object): [a < c < d]

4.1.2 退化

s.cat.as_unordered()

0    a
1    d
2    c
3    a
dtype: category
Categories (3, object): [a, c, d]

4.2 排序

s = pd.Series(np.random.choice(['perfect', 'good', 'fair', 'bad', 'awful'], 50)).astype('category')
s.cat.set_categories(['perfect', 'good', 'fair', 'bad', 'awful'][::-1], ordered = True).head()

0       good
1    perfect
2       fair
3       good
4       fair
dtype: category
Categories (5, object): [awful < bad < fair < good < perfect]

s.sort_values(ascending = False).head()

37    perfect
9     perfect
19    perfect
18    perfect
17    perfect
dtype: category
Categories (5, object): [awful, bad, fair, good, perfect]

df_sort = pd.DataFrame({'cat': s.values, 'value': np.random.randn(50)})
df_sort.set_index('cat').head()

df_sort.sort_index().head()

5. 分类变量的比较操作

5.1 与标量或等长序列的比较

s = pd.Series(["a", "d", "c", "a"]).astype('category')
s == 'a'

0     True
1    False
2    False
3     True
dtype: bool

s == list('abcd')

0     True
1    False
2     True
3    False
dtype: bool

5.2 与另一分类变量的比较

5.2.1 等式判别

两个分类变量的等式判别需要满足分类完全相同。

s = pd.Series(["a", "d", "c", "a"]).astype('category')
s == s

0    True
1    True
2    True
3    True
dtype: bool

5.2.2 不等式判别

两个分类变量的不等式判别需要满足两个条件：分类完全相同和排序完全相同。

s = pd.Series(["a", "d", "c", "a"]).astype('category')
#s >= s #报错

s = pd.Series(["a", "d", "c", "a"]).astype('category')
s = s.cat.reorder_categories(['a', 'c', 'd'], ordered = True)
s >= s

0    True
1    True
2    True
3    True
dtype: bool

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Zee_Chao CSDN认证博客专家 CSDN认证企业博客

码龄9年

135: 原创

4万+: 周排名

165万+: 总排名

12万+: 访问

: 等级

2389: 积分

164: 粉丝

159: 获赞

54: 评论

556: 收藏

私信

关注

分类专栏

最新评论

从关山口到五道口（2019年清华计算机考研全程回顾+经验+总结）
帮我喝一杯杨枝甘露: 好真诚的分享，祝好！
检验合法的出栈序列（C++）
神奇冉冉: 简单明了提供1个java版本的 [code=java] public static void main(String[] args) { int[] is = { 1, 2, 3, 4, 5, 6, 7 }; int[] os = { 4, 3, 5, 6, 7, 2, 1 }; // Stack<Integer> stack=new Stack<>(); Queue<Integer> que=new ArrayDeque<>(); //出栈入队 for(int i=0;i<os.length;i++){ que.offer(os[i]); } //入栈入栈 for(int i=0;i<is.length;i++){ stack.push(is[i]); // 何时出栈 while(!stack.isEmpty()&&stack.peek()==que.peek()){ stack.pop(); que.poll(); } } // 栈空Yes if(stack.isEmpty()){ System.out.println("Yes"); }else{ System.out.println("No"); } } [/code]
从关山口到五道口（2019年清华计算机考研全程回顾+经验+总结）
Zee_Chao: 首先，这个问题不冒昧。其次，出于隐私保护，原谅我不愿意回答
从关山口到五道口（2019年清华计算机考研全程回顾+经验+总结）
陈轻侯: 学长可以冒昧的问一下，你研究生入学的时候多少岁了吗
第六周：机器学习理论与实践的补充
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。