那么创建好数据后,或者读入数据后,怎么对数据进行选择呢,下面将介绍pandas对数据的选择
首先生成数据
import numpy as np
import pandas as pd
data=pd.date_range('20200801',periods=6)
df1=pd.DataFrame(np.arange(24).reshape((6,4)),index=data,columns=['a','b','c','d'])
print(df1)
结果如下
然后对数据进行选取
1 按照索引
主要看代码的注释,结果请自行运行。
df1.a(df1['a']) # 这两个意思一样,都是为了选取列索引为‘a’的列
df1[0:2] # 选取行
df1['20200801':'20200804'] # 选取行
# 也可以行和列一起选择, 就行操作excel一样
# df1.loc['20200801'] # 行
# df1.loc['20200801',['c']] # 行列
# df1.loc[:,['a','b']] # 行列
2 按照位置选取
df1.iloc[2] # 第二行 注意是从第0行开始的
df1.iloc[1:3,2:4] # 行和列
df1.iloc[[1,3],[1,2]] # 不连续的行和列
3 混合标签和位置选取
这种方法在pandas库更新后已经不能用了。
# df1.ix[1:3,['a','c']]
4 通过条件选取
#df1.a>4
# df1[df1.a>4] # 选取第a列中>4的所有行