楔子
笔者曾经碰到过两种格式的数据,当时确实把我难住了,最后虽然解决了,但是方法不够优雅,而且效率也不高,如果想高效率,那么就必须使用pandas提供的方法。而pandas作为很强的一个库,一定可以优雅地解决。当时用自己的方法解决之后,就没有之后了。但是最近又碰到了当时的情况,于是决定要优雅地解决,最后经过努力总算找到了解决的办法,下面先来看看当时难住笔者的两种格式的数据、以及需求吧。
需求一:
有以下格式的数据:
姓名 科目 成绩
小红 语文 90
小红 数学 90
小红 英语 90
小胖 语文 91
小胖 数学 91
小胖 英语 91
小花 语文 92
小花 数学 92
小花 英语 92
我们要变成以下的样子
姓名 语文 数学 英语
小红 90 90 90
小胖 91 91 91
小花 92 92 92
需求二:
姓名 年龄 爱好
小红 18 跳舞,唱歌,钢琴
小胖 20 唱,跳,rap,篮球
小花 19 古筝,翻译
我们要变成以下的样子
姓名 年龄 爱好
小红 18 跳舞
小红 18 唱歌
小红 18 钢琴
小胖 20 唱
小胖 20 跳
小胖 20 rap
小胖 20 篮球
小花 19 古筝
小花 19 翻译
解决需求一
unstack
print(df)
"""
姓名 科目 分数
0 小红 语文 90
1 小红 数学 90
2 小红 英语 90
3 小胖 语文 91
4 小胖 数学 91
5 小胖 英语 91
6 小花 语文 92
7 小花 数学 92
8 小花 英语 92
"""
# 将姓名和科目设置索引,然后只取出"分数",得到对应的二级索引Series对象
df = df.set_index(["姓名", "科目"])
two_level_index_series = df["分数"]
# 此时得到的是一个具有二级索引的series
print(two_level_index_series)
"""
姓名 科目
小红 语文 90
数学 90
英语 90
小胖 语文 91
数学 91
英语 91
小花 语文 92
数学 92
英语 92
Name: 分数, dtype: int64
"""