1、loc、iloc、ix
df.index = ['a','b','c','d']
df.iloc[1] 所在的行的数字为索引
df.loc['a']所在行的标签为索引
df,ix[]既可以是行号,也可以是行索引
当行和列同时选择时:用,分割
df.ix['a','age'] 19
df.loc[:,'age']
2、Series.map(self, arg, na_action=None)
https://blog.csdn.net/weixin_43655282/article/details/97820777
arg类型可以是list、dict、function
(1)s = pd.Series(['cat', 'dog', np.nan, 'rabbit'])
s:0 cat
1 dog
2 NaN
3 rabbit
dtype: object
(2)s.map({'cat': 'kitten', 'dog': 'puppy'})
0 kitten
1 puppy
2 NaN
3 NaN
dtype: object
(3)s.map('I am a {}'.format)
0 I am a cat
1 I am a dog
2 I am a nan
3 I am a rabbit
dtype: object
若不想对NaN值使用参数中的 function , 参数 na_tion=‘ignore’
s.map('I am a {}'.format, na_action='ignore')
0 I am a cat
1 I am a dog
2 NaN
3 I am a rabbit
dtype: object
3、replace(to_replace, value,inplace,regex)
df.replace(to_replace, value,inplace)在整个df里替换
df[column名].replace(to_replace, value,inplace)在某一列替换
inplace=true改变源文档
单值替换:df.replace(a,b)
多值替换:df.replace(a:b,c:d) df.replace([a,c],[b,d]) df.replace([a,c],[b]) :替换的值相同
正则化替换:需加字段regex = true
df.replace('[A-Z]','变电站'):将大写字母变成变电站
4、pd.dropna(subset=[column]).drop_duplicates()
pd.dropna()删除缺失值
pd.drop_duplicates()去除完全重复的行数据
pd.drop_duplicates(subset=['A','B'],keep='first',inplace=True)去除某几列重复的行数据