Pandas loc/iloc用法详解——《Python数据分析库Pandas》

Python老吕

已于 2024-06-15 22:40:48 修改

阅读量1.6k

点赞数 12

分类专栏： # 《Pandas·附录资料》文章标签： pandas python 数据分析 loc：基于标签的索引 iloc：基于位置的索引 loc/iloc注意事项 loc/iloc高级用法与实例

于 2024-05-24 21:08:46 首次发布

本文链接：https://blog.csdn.net/molangmolang/article/details/139184391

版权

《Pandas·附录资料》专栏收录该内容

39 篇文章

订阅专栏

本文详细介绍了Pandas中的loc和iloc用法，包括基于标签的loc索引和基于位置的iloc索引。loc用于选择指定标签的数据，而iloc则按位置选取。文章讨论了两者在处理数据时的注意事项、性能考虑，以及如何结合布尔索引、切片操作和高级用法进行数据选择。此外，还分享了在大型数据集上使用这两个工具的最佳实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas loc/iloc用法详解——《Python数据分析库Pandas》

Pandas loc/iloc用法详解

Pandas loc/iloc用法详解——《Python数据分析库Pandas》

Pandas loc/iloc用法详解

Pandas是Python中一个强大的数据处理库，它提供了丰富的数据结构和数据分析工具，使得数据处理变得简单而高效。在Pandas中，loc和iloc是两种常用的基于标签和基于位置的索引方式，用于选择和操作数据。

loc：基于标签的索引

loc是基于标签的索引方式，它使用行标签和列标签来选取数据。它的基本语法如下：

df.loc[row_labels, column_labels]

其中，row_labels是行标签的选择，可以是单个标签、标签列表、标签切片或布尔序列；column_labels是列标签的选择，规则与行标签相同。

例如，假设我们有一个名为df的DataFrame，其中包含以下数据：

import pandas as pd

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}

df = pd.DataFrame(data, index=['x', 'y', 'z'])

我们可以使用loc来选择特定的行和列：

# 选择单个元素
print(df.loc['x', 'A'])  # 输出：1

# 选择多行多列
print(df.loc[['x', 'z'], ['A', 'C'])

iloc：基于位置的索引

与loc不同，iloc是基于位置的索引方式，它使用行号和列号来选取数据。它的基本语法如下：

df.iloc[row_positions, column_positions]

其中，row_positions是行号的选择，可以是整数、整数列表、整数切片或布尔序列；column_positions是列号的选择，规则与行号相同。

使用iloc时，需要注意的是，行号和列号都是从0开始的。

继续以上面的df为例，我们可以使用iloc来选择特定的行和列：

# 选择第一行第一列的元素
print(df.iloc[0, 0])  # 输出：1

# 选择前两行和后两列的数据
print(df.iloc[:2, [1, 2]])

注意事项

当使用loc时，如果标签不存在，Pandas会抛出一个错误。而使用iloc时，如果位置超出范围，Pandas会返回一个空序列或NaN值。
loc和iloc可以与其他Pandas函数和方法结合使用，以实现更复杂的数据选择和操作。
在处理大型数据集时，使用iloc通常比使用loc更快，因为基于位置的索引不需要进行标签查找。

高级用法与实例

在前面的部分，我们介绍了Pandas中loc和iloc的基本用法。然而，这两个功能强大的索引工具还提供了更多高级的用法，可以满足更复杂的数据选择需求。

布尔索引

loc和iloc都可以与布尔序列结合使用，以根据条件选择数据。这提供了一种灵活的方式来筛选满足特定条件的行。

例如，假设我们想要选择df中所有值大于5的元素：

# 使用 loc 基于条件筛选
print(df.loc[df['A'] > 5])

# 使用 iloc 基于位置筛选需要结合 np.where 等函数
import numpy as np
condition = df.values[:, 0] > 5
print(df.iloc[np.where(condition)[0], :])

请注意，对于iloc，我们需要使用NumPy的where函数来获取满足条件的行位置索引。

切片操作

除了选择单个元素或列表中的多个元素外，loc和iloc还支持切片操作，用于选择连续的行或列。

# 使用 loc 进行切片
print(df.loc['x':'y', 'A':'B'])  # 选择从 'x' 到 'y' 的行，以及从 'A' 到 'B' 的列

# 使用 iloc 进行切片
print(df.iloc[0:2, 1:3])  # 选择前两行和后两列的数据（不包括索引2和3）

在切片操作中，loc使用的是标签的切片，而iloc使用的是位置的切片。切片操作是左闭右开的，即包含起始位置，不包含结束位置。

结合使用

在实际应用中，我们通常会结合使用多种索引方法来选择和操作数据。例如，我们可以先使用loc根据条件筛选行，然后再使用iloc选择这些行中的特定列。

# 结合使用 loc 和 iloc
filtered_rows = df.loc[df['A'] > 2]  # 选择 A 列大于 2 的行
selected_data = filtered_rows.iloc[:, 1]  # 选择这些行的第二列（即 B 列）
print(selected_data)

在这个例子中，我们首先使用loc根据A列的值筛选出行，然后使用iloc选择这些筛选后行的第二列数据。

性能考虑

当处理大型数据集时，了解loc和iloc的性能差异是非常重要的。由于loc是基于标签的索引，它需要进行标签的查找和匹配，这可能会比基于位置的索引慢一些。因此，在处理大型数据集时，如果标签不是有序的或频繁变化的，使用iloc可能会更加高效。然而，如果标签是有序的或经常用于索引，那么loc可能会提供更好的性能，因为它可以利用标签的排序和唯一性来加速查找过程。