【pandas】第三章 索引
Datawhale的pandas学习的开源地址:Joyful Pandas
https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch1.html
欢迎大家关注了解Datawhale :)
目录
一、索引器
1. 表的列索引:列索引是最常见的索引形式,一般通过 [] 来实现。
2. 序列的行索引:
【a】以字符串为索引的 Series,取出单个索引的对应元素,则可以使用[item],可以使用切片
注:如果前后端点的值存在重复,即非唯一值,那么需要经过排序才能使用切片,如 s.sort_index()[‘a’: ‘b’]
【b】以整数为索引的 Series,使用 [int] 或 [int_list] ,则可以取出对应索引元素的值
3. loc索引器
loc[*, *]:第一个 * 代表行的选择,第二个 * 代表列的选择
注:对于复合条件而言,可以用 |(或), &(且), ~(取反)的组合来实现
以及不要使用链式赋值
如 df_chain[df_chain.A!=0].B = 1
应改为df_chain.loc[df_chain.A!=0,'B'] = 1
4. iloc索引器
iloc 的使用与 loc 完全类似,只不过是针对位置进行筛选,在相应的 * 位置处也有五类对象:整数、整数列表、整数切片、布尔列表以及函数
5. query方法
6. 随机抽样
sample 函数中的主要参数为
n
: 抽样数量
axis
: 抽样的方向 (0为行、1为列)
frac
: 抽样比例(0.3则为从总体中抽出30%的样本)
replace
: 是否放回
weights
: 每个样本的抽样相对概率
例子:df_sample.sample(3, replace = True, weights = df_sample.value)
二、多级索引
1. 多级索引及其表的结构
下图通过颜色区分,标记了 DataFrame 的结构。与单层索引的表一样,具备元素值、行索引和列索引三个部分。其中,这里的行索引和列索引都是 MultiIndex 类型,只不过 索引中的一个元素是元组 而不是单层索引中的标量。例如,行索引的第四个元素为 (“B”, “Male”) ,列索引的第二个元素为 (“Height”, “Senior”) ,这里需要注意,外层连续出现相同的值时,第一次之后出现的会被隐藏显示,使结果的可读性增强。
索引的名字和值属性分别可以通过 names 和 values 获得:
例 df_multi.index.names; df_multi.index.values
2. 多级索引中的loc索引器
这里的教程原文写的清晰明了,直接copy了
注意:当传入元组列表或单个元组或返回前二者的函数时,需要先进行索引排序以避免性能警告
3. IndexSlice对象
4. 多级索引的构造
三、索引的常用方法
1. 索引层的交换和删除
索引层的交换由 swaplevel
和 reorder_levels
完成,前者只能交换两个层,而后者可以交换任意层,两者都可以指定交换的是轴是哪一个,即行索引或列索引
删除某一层的索引,可以使用 droplevel
方法
2. 索引属性的修改
通过rename_axis
可以对索引层的名字进行修改,常用的修改方式是传入字典的映射
例子:
df_ex.rename_axis(index={'Upper':'Changed_row'},columns={'Other':'Changed_Col'})
通过 rename
可以对索引的值进行修改,如果是多级索引需要指定修改的层号level
3. 索引的设置与重置
4. 索引的变形
四、索引运算
1. 集合的运算法则
2. 一般的索引运算
由于集合的元素是互异的,但是索引中可能有相同的元素,先用 unique 去重后再进行运算。
& 交集
| 并集
^ 对称差