【pandas】第三章索引

最新推荐文章于 2024-02-18 23:22:38 发布

阿芒Aris

最新推荐文章于 2024-02-18 23:22:38 发布

阅读量254

点赞数

分类专栏： pandas 文章标签： python pandas datawhale

本文链接：https://blog.csdn.net/qq_44574333/article/details/111560515

版权

pandas 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

【pandas】第三章索引

Datawhale的pandas学习的开源地址：Joyful Pandas
https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch1.html

欢迎大家关注了解Datawhale ：）

一、索引器

1. 表的列索引：列索引是最常见的索引形式，一般通过 [] 来实现。

2. 序列的行索引：

【a】以字符串为索引的 Series，取出单个索引的对应元素，则可以使用[item]，可以使用切片
注：如果前后端点的值存在重复，即非唯一值，那么需要经过排序才能使用切片，如 s.sort_index()[‘a’: ‘b’]
【b】以整数为索引的 Series，使用 [int] 或 [int_list] ，则可以取出对应索引元素的值

3. loc索引器

loc[*, *]：第一个 * 代表行的选择，第二个 * 代表列的选择
注：对于复合条件而言，可以用 |（或）, &（且）, ~（取反）的组合来实现
以及不要使用链式赋值
如 df_chain[df_chain.A!=0].B = 1应改为df_chain.loc[df_chain.A!=0,'B'] = 1

4. iloc索引器

iloc 的使用与 loc 完全类似，只不过是针对位置进行筛选，在相应的 * 位置处也有五类对象：整数、整数列表、整数切片、布尔列表以及函数

5. query方法

在这里插入图片描述

6. 随机抽样

sample 函数中的主要参数为
n: 抽样数量
axis: 抽样的方向 (0为行、1为列)
frac: 抽样比例（0.3则为从总体中抽出30%的样本）
replace: 是否放回
weights: 每个样本的抽样相对概率

例子：df_sample.sample(3, replace = True, weights = df_sample.value)

二、多级索引

1. 多级索引及其表的结构

下图通过颜色区分，标记了 DataFrame 的结构。与单层索引的表一样，具备元素值、行索引和列索引三个部分。其中，这里的行索引和列索引都是 MultiIndex 类型，只不过 索引中的一个元素是元组 而不是单层索引中的标量。例如，行索引的第四个元素为 (“B”, “Male”) ，列索引的第二个元素为 (“Height”, “Senior”) ，这里需要注意，外层连续出现相同的值时，第一次之后出现的会被隐藏显示，使结果的可读性增强。
在这里插入图片描述
索引的名字和值属性分别可以通过 names 和 values 获得：
例 df_multi.index.names; df_multi.index.values