Pandas数据处理基础3---数据选择(基于索引数字的选择、基于标签名称选择)及其用法

数据选择

在数据预处理过程中,我们往往会对数据集进行切分,只将需要的某些行、列,或者数据块保留下来,输出到下一个流程中去。这也就是所谓的数据选择,或者数据索引。

基于索引数字的选择

当我们新建一个 DataFrame 之后,如果未自己指定行索引或者列对应的标签,那么 Pandas 会默认从 0 开始以数字的形式作为行索引,并以数据集的第一行作为列对应的标签。其实,这里的「列」也有数字索引,默认也是从 0 开始,只是未显示出来。

Pandas 中的 .iloc 方法。该方法可以接受的类型有:

1.整数。例如:5
2.整数构成的列表或数组。例如:[1, 2, 3]
3.布尔数组。
4.可返回索引值的函数或参数。
df.iloc[:3] #选择前三行数据

输出结果:
在这里插入图片描述

df.iloc[5] #选择指定行

输出结果:
在这里插入图片描述

df.iloc[[1,3,5]] #选择多行,比如1,3,5行

输出结果:
在这里插入图片描述

df.iloc[:, 1:4] #选择2-4列

输出结果(由于图片太大,仅截取部分):
在这里插入图片描述

基于标签名称选择

除了根据数字索引选择,还可以直接根据标签对应的名称选择。这里用到的方法和上面的 iloc 很相似,少了个 i 为 df.loc[]
df.loc[] 可以接受的类型有:

1.单个标签。例如:2 或 'a',这里的 2 指的是标签而不是索引位置。
2.列表或数组包含的标签。例如:['A', 'B', 'C']。
3.切片对象。例如:'A':'E',注意这里和上面切片的不同支持,首尾都包含在内。
4.布尔数组。
5.可返回标签的函数或参数。
df.loc[0:2] #选择前3行

输出结果:
在这里插入图片描述

df.loc[[0,2,4]] #选择1,3,5行

输出结果:
在这里插入图片描述

df.loc[:,'Total Population':'Total Males'] #选择2-4列

输出结果(由于图片太大,仅截取部分):
在这里插入图片描述

df.loc[[0,2],'Median Age':] #选择 1,3 行和 Median Age 后面的列

输出结果:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值