DataFrame索引操作、切片选取、条件过滤、赋值

最新推荐文章于 2024-06-09 17:11:42 发布

景韦

最新推荐文章于 2024-06-09 17:11:42 发布

阅读量2.6w

点赞数 18

分类专栏： python 数据分析

本文链接：https://blog.csdn.net/jewely/article/details/87869893

版权

python 同时被 2 个专栏收录

55 篇文章 2 订阅

订阅专栏

数据分析

14 篇文章 2 订阅

订阅专栏

索引操作

1. 修改索引顺序

reindex(index=[ ],columns=[ ],method,fill_value,copy)
根据传入的列表顺序对DataFrame重新索引，并返回一个新DataFrame，不影响原DataFrame。若传入列表中的值在原索引中并不存在，则在DataFrame的对应位置插入值为NaN的行/列。若只传入一个列表且未指定参数名，默认修改index即行索引。建议加入参数名以免混淆。
method 若原索引是有序序列，则对缺失的值按method指定的方法进行填充，ffill 向前填充，bfill 向后填充
fill_value 对于缺失值的替代值

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: data=pd.DataFrame([[0,1,2],[3,4,5],[6,7,8]],index=['a','c','d'],columns=['A','B','C'])

In [4]: data
Out[4]: 
   A  B  C
a  0  1  2
c  3  4  5
d  6  7  8

# 传入参数没指定参数名，且只有一列序列，默认对行索引进行修改，若索引值不存在则置NaN
In [6]: data.reindex(['c','a','b','d'])
Out[6]: 
     A    B    C
c  3.0  4.0  5.0
a  0.0  1.0  2.0
b  NaN  NaN  NaN
d  6.0  7.0  8.0

# 建议加上参数名，以免产生错误
In [7]: data.reindex(index=['a','b','c','d'],columns=['B','C','D','A'])
Out[7]: 
     B    C   D    A
a  1.0  2.0 NaN  0.0
b  NaN  NaN NaN  NaN
c  4.0  5.0 NaN  3.0
d  7.0  8.0 NaN  6.0

2. 修改索引值

如果只要修改索引值，而不改变DataFrame数据的顺序，可以直接对index columns 属性进行赋值，传入的列表大小必须和DataFrame的索引长度相同。该操作直接修改原DataFrame。

In [10]: data.index=list('xyz')

In [11]: data.columns=list('XYZ')

In [12]: data
Out[12]: 
   X  Y  Z
x  0  1  2
y  3  4  5
z  6  7  8

3. 删除索引

drop(axis=0,index,columns,inplace=False) 删除传入的索引项，返回新的DataFrame
axis 指定删除哪个轴上的索引，默认行索引axis=0或axis='index'，列索引为axis=1或axis='columns'
index columns 显式指定删除哪个轴的索引
inplace 默认False 返回新对象；True 直接修改原对象，无返回

In [13]: data.drop(['x'],axis=0) # 使用axis指定轴
Out[13]: 
   X  Y  Z
y  3  4  5
z  6  7  8

In [14]: data.drop(columns=['X','Z']) # 显式指定删除哪个轴的索引
Out[14]: 
   Y
x  1
y  4
z  7

In [15]: data.drop(['y','z'],inplace=True) # 直接修改对象，无返回

In [16]: data
Out[16]: 
   X  Y  Z

切片选取

1. 直接选取

对于DataFrame，使用一个值或序列进行索引，就是获取一个或多列
使用切片则获取指定的行，使用索引位置序号切片结果不包含末端索引，使用索引标签切片结果包含末端索引

In [17]: data=pd.DataFrame(np.arange(20).reshape(5,4),index=list('abcde'),columns=list('ABCD'))

In [18]: data
Out[18]: 
    A   B   C   D
a   0   1   2   3
b   4   5   6   7
c   8   9  10  11
d  12  13  14  15
e  16  17  18  19

# 使用序列对列索引进行选择
In [23]: data[['A','C']]
Out[23]: 
    A   C
a   0   2
b   4   6
c   8  10
d  12  14
e  16  18

# 使用切片对行索引进行选择
# 对行索引的b~e（索引位置序号为1~4）进行切片，切片使用索引位置序号，结果不包含末端索引
In [24]: data[1:4]
Out[24]: 
    A   B   C   D
b   4   5   6   7
c   8   9  10  11
d  12  13  14  15

# 使用索引标签切片结果包含末端索引，注意结果有e行
In [26]: data['b':'e']
Out[26]: 
    A   B   C   D
b   4   5   6   7
c   8   9  10  11
d  12  13  14  15
e  16  17  18  19

# 行列结合进行选取
In [27]: data[['A','C']][:2]
Out[27]: 
   A  C
a  0  2
b  4  6

# 行列顺序不影响结果，切片就是选择行，值或序列就是选择列
In [28]: data[:2][['A','C']]
Out[28]: 
   A  C
a  0  2
b  4  6

注意：若索引的标签值是整数，在使用标签值进行索引选取的时候会造成混乱，比如要选取标签值为1的项目，使用data[1]，但得到的却是索引位置为1的项目。
因此若索引的标签值含有整数，在进行选取时应该总是使用标签。为了更准确，请使用loc（标签）或iloc（整数）。

2. 用loc和iloc进行选取

上面直接选取的方法中，对于列无法使用切片方式进行选取，而loc() iloc() 方法支持行和列使用切片方式选取
loc(行标签,列标签) 使用标签值选取
iloc(行序号,列序号) 使用索引位置进行选取

若参数指定的是多行和多列，得到的仍旧是DataFrame；
若参数里单独指定某一行或某一列，得到的是name为该行标签或该列标签的Series，但如果以列表形式指定某一行或某一列如[‘B’]，得到的是DataFrame；
若行列都指定某一个标签，得到的是指定位置的数据，类型即为该数据的数据类型
loc使用标签切片包含末端项，iloc使用索引位置切片不包含末端项。

In [29]: data.loc['a'] # 选取行标签为'a'的行，得到一个name为行标签的Series
Out[29]: 
A    0
B    1
C    2
D    3
Name: a, dtype: int32

In [30]: data.loc[['a','c']] # 选取多行，得到DataFrame
Out[30]: 
   A  B   C   D
a  0  1   2   3
c  8  9  10  11

In [31]: data.loc[['a','c'],'B'] # 选取多行和指定的某一列，得到name为列标签的Series
Out[31]: 
a    1
c    9
Name: B, dtype: int32


In [32]: data.loc['a':'d','B':'D'] # 使用切片方式同时选取行和列
Out[32]: 
    B   C   D
a   1   2   3
b   5   6   7
c   9  10  11
d  13  14  15

In [33]: data.loc[:,'B':'D'] # 切片方式选择所有行和指定列
Out[33]: 
    B   C   D
a   1   2   3
b   5   6   7
c   9  10  11
d  13  14  15
e  17  18  19

In [34]: data.iloc[0:4,1:3] # iloc使用索引序号进行切片，不包含末端项
Out[34]: 
    B   C
a   1   2
b   5   6
c   9  10
d  13  14

条件过滤

1. 布尔运算

对DataFrame或切片选取的结果进行布尔运算，会得到一个格式与被运算对象完全相同的布尔型新对象

In [40]: data%3==0 # 判断元素是否是3的倍数，得到的新对象格式与data完全一样
Out[40]: 
       A      B      C      D
a   True  False  False   True
b  False  False   True  False
c  False   True  False  False
d   True  False  False   True
e  False  False   True  False

In [41]: data['B']>5 # data['B']是一个Series，因此运算结果也是一个Series
Out[41]: 
a    False
b    False
c     True
d     True
e     True
Name: B, dtype: bool

In [42]: data[['B','D']][:2]<3 # 前两行B,D列小于3
Out[42]: 
       B      D
a   True  False
b  False  False

# 使用loc或iloc选取结果也可以进行布尔运算，也可以将多个运算结果再次进行与或运算
In [48]: (data.loc[:,'B':'D']>5) & (data.loc[:,'B':'D']<10)
Out[48]: 
       B      C      D
a  False  False  False
b  False   True   True
c   True  False  False
d  False  False  False
e  False  False  False

2. 过滤

将布尔运算结果再次传入DataFrame中，会得到一个过滤后的新对象，对应位置为False的值均置NaN
注意：若对单列进行布尔运算如data['B']>5，结果是Series，传入DataFrame后会对行进行过滤，但若对单行进行布尔运算如data.loc['c']>10，得到的Series是不能进行过滤的

In [59]: data[data%3==0]
Out[59]: 
      A    B     C     D
a   0.0  NaN   NaN   3.0
b   NaN  NaN   6.0   NaN
c   NaN  9.0   NaN   NaN
d  12.0  NaN   NaN  15.0
e   NaN  NaN  18.0   NaN

In [60]: data[data['B']>5] # 对单列进行布尔运算，对行进行过滤
Out[60]: 
    A   B   C   D
c   8   9  10  11
d  12  13  14  15
e  16  17  18  19

In [71]: data[data[['B','D']][:2]<3]
Out[71]: 
    A    B   C   D
a NaN  1.0 NaN NaN
b NaN  NaN NaN NaN
c NaN  NaN NaN NaN
d NaN  NaN NaN NaN
e NaN  NaN NaN NaN

In [72]: data[(data.loc[:,'B':'D']>5) & (data.loc[:,'B':'D']<10)]
Out[72]: 
    A    B    C    D
a NaN  NaN  NaN  NaN
b NaN  NaN  6.0  7.0
c NaN  9.0  NaN  NaN
d NaN  NaN  NaN  NaN
e NaN  NaN  NaN  NaN

赋值

在进行切片选取和条件过滤时可以直接进行赋值，此时不返回新对象，而是直接修改原对象，对切片选取或条件过滤结果元素的对应位置进行赋值。

In [81]: data[(data.loc[:,'B':'D']>5) & (data.loc[:,'B':'D']<10)]='X'

In [82]: data
Out[82]: 
    A   B   C   D
a   0   1   2   3
b   4   5   X   X
c   8   X  10  11
d  12  13  14  15
e  16  17  18  19

景韦

关注

18
点赞
踩
97

收藏

觉得还不错? 一键收藏
2
评论
DataFrame索引操作、切片选取、条件过滤、赋值

索引操作1. 修改索引顺序reindex(index=[ ],columns=[ ],method,fill_value,copy)根据传入的列表顺序对DataFrame重新索引，并返回一个新DataFrame，不影响原DataFrame。若传入列表中的值在原索引中并不存在，则在DataFrame的对应位置插入值为NaN的行/列。若只传入一个列表且未指定参数名，默认修改index即行索引。建...
复制链接

扫一扫

专栏目录