又是新的一周,最近上海的疫情似乎又开始严重起来了,小编所在的小区也被封了,身边很多包括同事、朋友所在的小区也都被封了。希望这个疫情可以尽快过去吧,生活能够重新回到正轨。今天我们来聊一下Pandas
当中的数据集中带有多重索引的数据分析实战
通常我们接触比较多的是单层索引(左图),而多级索引也就意味着数据集当中的行索引有多个层级(右图),具体的如下图所示
AUTUMN
导入数据
我们先导入数据与pandas
模块,源数据获取,公众号后台回复【多重索引】就能拿到
import pandas as pd
## 导入数据集
df = pd.read_csv('dataset.csv')
df.head()
output
该数据集描述的是英国部分城市在2019年7月1日至7月4日期间的全天天气状况,我们先来看一下当前的数据集的行索引有哪些?代码如下
df.index.names
output
FrozenList(['City', 'Date'])
数据集当中City
、Date
,这里的City
我们可以当作是第一层级索引,而Date
则是第二层级索引。
我们也可以通过调用sort_index()
方法来按照数据集的行索引来进行排序,代码如下
df_1 = df.sort_index()
df_1
output
要是我们想将这个多层索引去除掉,就调用reset_index()
方法,代码如下
df.reset_index()
下面我们就开始针对多层索引来对数据集进行一些分析的