一、筛选
1、loc : 标签筛选
import pandas as pd
df.loc[‘2019’]
df.loc[‘A’]
df.loc[‘2019’,‘A’]
2、iloc:序号筛选
df.iloc[3,1] #定位到第3行,第1列
df.iloc[[:5,2:10]
df.iloc[[1,3,5],1:3]
3、ix:标签与序号混合
df.ix[:3,[‘A’,‘C’]]
4、条件筛选
df[df.A>9]
二、数值设置
df.loc[‘2019’,‘A’]=100
df.iloc[2,2]=200
df.A[df.A>4]=0 #A>4的A这一列全赋值为0
df[df.A>4]=0 #A>4的A这几行全赋值为0
df[‘E’]=np.nan #新增一列,值设置为nan
df[‘F’]=pd.Series([1,2,23,3,4],index=pd.data_range(‘20190506’,periods=5))
#新增F列,设置值为[1,2,23,3,4],index对齐。
三、异常数据处理
df.dropna(axis=0,how=‘any’)
参数:axis=0,丢掉有nan的行
axis=1,丢掉有nan的列
how='any’有一个nan就执行丢掉
how='all’全为nan才执行丢掉
df.fillna(value=0) #将nan赋值为0
np.any(df.isnull())==True #判读df中是否有nan,有的为True,无的为False
df.isnull() #返回True或者False