https://www.cnblogs.com/chenhuabin/p/10485549.html
loc:通过选取行(列)标签索引数据
iloc:通过选取行(列)位置编号索引数据
ix:既可以通过行(列)标签索引数据,也可以通过行(列)位置编号索引数据
df是一个dataframe,列名为A B C D
具体值如下:
A B C D
a1 ss 小红 8
a3 aa 小明 d
a5 f f
a7 ak 小紫 7
dataframe里的属性是不定的,空值默认为NA。
一、选取标签为A和C的列,并且选完类型还是dataframe
df = df.loc[:, [‘A’, ‘C’]]
df = df.iloc[:, [0, 2]]
二、选取标签为A和C的列并且只取前两行,选完类型还是dataframe
df = df.loc[0:2, [‘A’, ‘C’]]
df = df.iloc[0:2, [0, 2]]
三、选取行,选完类型还是dataframe
df = df.loc[0:2,:] 选取0-1行,[0,2)区间
df = df.iloc[0:2,:] 选取0-1行,[0,2)闭区间
loc是根据dataframe的具体标签选取列,而iloc是根据标签所在的位置,从0开始计数。
",“前面的”:"表示选取整行,第二个示例中的的0:2表示选取第0行到第二行,这里的0:2相当于[0,2)前闭后开,2是不在范围之内的。行选择是前闭后开
需要注意的是,如果是df = df.loc[0:2, [‘A’, ‘C’]]或者df = df.loc[0:2, [‘A’, ‘C’]],切片之后类型依旧是dataframe,不能直接进行。
加减乘除等操作的,比如dataframe的一列是数学成绩(shuxue),另一列为语文成绩(yuwen),现在需要求两门课程的总和。可以使用 df[‘shuxue’] + df[‘yuwen’](选取完之后类型为series)来获得总分,而不能使用 df.iloc[:,[2]]+df.iloc[:,[1]]或df.iloc[:,[‘shuxue’]]+df.iloc[:,[‘yuwen’]],因为返回的是datafeame类型的数据,这会产生错误结果。
1 引言
Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。
Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据选取的方式基本一致,本文主要以Dataframe为例进行介绍。
在Dataframe中选取数据大抵包括3中情况:
1)行(列)选取(单维度选取):df[]。这种情况一次只能选取行或者列,即一次选取中,只能为行或者列设置筛选条件(只能为一个维度设置筛选条件)。
2)区域选取(多维选取):df.loc[],df.iloc[],df.ix[]。这种方式可以同时为多个维度设置筛选条件。
3)单元格选取(点选取):df.at[],df.iat[]。准确定位一个单元格。
接下来,我们以下面的数据为例,分别通过实例介绍这三