Pandas快乐学习-索引
本章主要内容为对表格元素的索引,主要分为单机索引和多级索引,以及设定索引的方式使得我们很容易的对所要处理的数据进行索引;此外,介绍了常用索引函数以及对重复元素的处理方法;有些时候我们需要抽样,选取部分数据来进行处理,因此也介绍了抽样函数。总的感觉:本章课程,既可以作为初学者入门时对各操作的熟悉,对Pandas有一定基础的学习者,通过本章知识点的梳理,也能够获益良多。
所有数据及详细知识点参考:https://github.com/datawhalechina/joyful-pandas
总体框架
一、单级索引
主要是对形如下图的表格进行处理,单级就是只有一级index和column。
1. loc方法、iloc方法、[]操作符
当我们需要对要处理的表格的某一行,多行,某一列,多列,行和列的交集时,就可以用到以下方法,loc适合于对知道ID号的数据进行处理,特别是对以时间为index的数据,其索引往往可以直接通过某段时间的起始时刻进行操作。而iloc方法,对于你想对特定数量的行或列的数据进行处理时,索引效果要更好。
2. 布尔索引
对满足某些条件的数据进行索引。
3. 快速标量索引
使用时尽量使用at和iat方法。
4. 区间索引
当我们需要统计某个分数段或身高段时,用该方法就非常好。比如想统计50-60分的人数有多少,身高160-170之间的人数等等。
二、多级索引
对形如下图的表格进行处理:
1. 创建多级索引
2. 多层索引切片
3. 多层索引中的slice对象
4. 索引层的交换
三、索引设定
四、常用索引型函数
五、常用索引型函数
六、抽样函数
七、问题与练习