pandas数据框loc属性语法及示例

梦想画家

已于 2022-06-05 16:35:22 修改

阅读量7k

点赞数 15

分类专栏：人工智能 # python 文章标签：数据挖掘 python pandas 数据处理

于 2022-06-05 16:33:21 首次发布

本文链接：https://blog.csdn.net/neweastsun/article/details/125133515

版权

python 同时被 2 个专栏收录

223 篇文章

订阅专栏

人工智能

88 篇文章

订阅专栏

pandas.DataFrame.loc[] 是数据框的属性，通过指定标签或布尔数组来访问数据框的一组行和列。pandas.DataFrame是带有轴标签的二维表数据结构，如列和行。从数据框选择列结果是新的数据框，它仅包括特性从原数据框中选择的列。

pandas.DataFrame.loc 的关键说明：

loc用于通过标签选择或过滤行和列
当选择行时，选哟提供索引标签
也提供了其他方法选择行和列，如：范围、交替选择

pandas.DataFrame.loc[] 语法及用法

loc用于通过数据框的名称(标签)选择行列，是数据框最常用的属性。数据框的主要优点是容易使用，当你使用pandas.DataFrame.loc[] 属性去选择或过滤数据框时，你会认同这个优势。

df.loc[start:stop:step, start:stop:step]

第一个start:stop:step用于通过名称或标签选择行，后面的用于通过名称或标签选择列。

start 是行列标签的名称
stop 是最后一个取用的行列标签的名称
step 是每次抽取后索引前进数量

关键点说明：

不指定start行列，loc[]从起始点开始
不指定stop，loc[]从开始标签起选择所有行列
同时提供start和stop，选择两种之间的所有行列

下面创建数据框，并学习如何使用loc[]。

import pandas as pd
technologies = {
    'Courses':["Spark","PySpark","Hadoop","Python","pandas"],
    'Fee' :[20000,25000,26000,22000,24000],
    'Duration':['30day','40days','35days','40days','60days'],
    'Discount':[1000,2300,1200,2500,2000]
              }
index_labels=['r1','r2','r3','r4','r5']
df = pd.DataFrame(technologies,index=index_labels)
print(df)

# Outputs
#r1    Spark  20000    30day      1000
#r2  PySpark  25000   40days      2300
#r3   Hadoop  26000   35days      1200
#r4   Python  22000   40days      2500
#r5   pandas  24000   60days      2000

loc示例

下面通过几个实例展示如何使用loc.

通过标签选择单行/列

loc可以通过标签选择行、列，也支持选择多行、列，即两行之间的记录，两列之间列。下面示例通过标签选择行列：

# 选择第一行的所有列
print(df.loc['r1', :])

# Courses     Spark
# Fee         20000
# Duration    30day
# Discount     1000
# Name: r1, dtype: object



# 选择所有行的Courses列
print(df.loc[:, "Courses"])

#Outputs
#    Courses
#r1    Spark
#r2  PySpark
#r3   Hadoop
#r4   Python
#r5   pandas

选择多行/列


下面示例使用loc属性通过标签选择多行/列：

# 通过标签选择多行
print(df.loc[['r2','r3']])

# Outputs
#    Courses    Fee Duration  Discount
#r2  PySpark  25000   40days      2300
#r3   Hadoop  26000   35days      1200


# 通过标签选择多列
print(df.loc[:, ["Courses","Fee","Discount"]])

# Outputs
#    Courses    Fee  Discount
#r1    Spark  20000      1000
#r2  PySpark  25000      2300
#r3   Hadoop  26000      1200
#r4   Python  22000      2500
#r5   pandas  24000      2000

范围选择

loc支持范围选择，指定两个标签，返回包括两者之间的所有行或列：

# 指定俩个行标签，返回包括两者之间的行记录
print(df.loc['r1':'r4'])

# 输出结果
#    Courses    Fee Duration  Discount
#r1    Spark  20000    30day      1000
#r2  PySpark  25000   40days      2300
#r3   Hadoop  26000   35days      1200
#r4   Python  22000   40days      2500

# 选择两个列之间的所有列
print(df.loc[:,'Fee':'Discount'])

# 输出结果
#      Fee Duration  Discount
#r1  20000    30day      1000
#r2  25000   40days      2300
#r3  26000   35days      1200
#r4  22000   40days      2500
#r5  24000   60days      2000

交替选择

与范围类型，loc也支持交替选择：


# 按行交替选择，每两行选一次
print(df.loc['r1':'r4':2])

# 输出结果：
#   Courses    Fee Duration  Discount
#r1   Spark  20000    30day      1000
#r3  Hadoop  26000   35days      1200

# 交替选择列
print(df.loc[:,'Fee':'Discount':2])

# 输出结果：
#      Fee  Discount
#r1  20000      1000
#r2  25000      2300
#r3  26000      1200
#r4  22000      2500
#r5  24000      2000

需要特别说明的是step还支持负数，表示逆序选择：

import pandas as pd

print(df.loc[::-1, :])

#     Courses    Fee Duration  Discount
# r5   pandas  24000   60days      2000
# r4   Python  22000   40days      2500
# r3   Hadoop  26000   35days      1200
# r2  PySpark  25000   40days      2300
# r1    Spark  20000    30day      1000

我们看到结果正好逆序输出，读者也可以尝试修改-1为其他负数理解反向交替选择的机理。

条件选择

根据条件选择：

# 使用条件，选择fee列大于24000的记录
print(df.loc[df['Fee'] >= 24000])

# 输出结果
#    Courses    Fee Duration  Discount
#r2  PySpark  25000   40days      2300
#r3   Hadoop  26000   35days      1200
#r5   pandas  24000   60days      2000