1.重命名函数(作用于行列):df.rename()
df.rename(columns={'id':'student_id','first':'first_name','last':'last_name','age':'age_in_years'},inplace=True)
df.rename(columns={'id':'student_id','first':'first_name','last':'last_name','age':'age_in_years'},index={0:'a',1:'b',3:'c'},inplace=True)
2.排序函数(作用于行列)
(1)按标签排序:df.sort_index(axis=0/1,ascending=True/False)
注:默认按axis=0的行标签进行升序排序
df.sort_index(ascending=False)
(2)按值排序:df.sort_value(by='列名')
3.去重函数:df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)
subset可指定去重列
keep指定是否保留重复列,keep=False则不保留(first / last保留第一次/最后一次出现的重复项)
inplace指定是否修改当前df,inplace=True则修改,False则返回新的结果df
df.drop_duplicates(subset='email', keep='first', inplace=True)
补充:df.duplicated()——检查是否有重复值
4.缺失值处理函数集锦
(1)替换缺失值:df.fillna(n)或者df.replace(old,new)或者df.replace({0:'a',1:'b'})
df.replace({10:'a',20:'b'})
(2)删除缺失值:df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
axis决定行列(0/1)
how决定是否删除(any:存在NA值就删除;all:全都为NA值才删除)
thresh决定最小多少个NA值保留当前行或列
subset决定是否根据某个行or列的某个标签来删除
inplace决定是否修改df本身(True则修改,False则不修改)