#查看缺失值总数 a = df.isnull().sum() #a=每列缺失值个数 b = a.sum #求和 print(f'缺失值总数 : {b}')
#删除含有缺失值的列,并打印删除列数或行数 c = len(df.columns) #c是原本表格的列数 不加columns是行数 df1 = df.dropna(axis=1,how='any') #删除含有缺失值的列(axis=0是行) d = len(df1.colums) #d是修改后表格的数量 e = c-d print(f'被删除的列数: {e}') #删除含有缺失值的列,并打印删除列数或行数
#使用平均值填补缺失值和空值 f = df['某列'].mean() #计算某一列平均值(sum总和,median中位数,std标准差,min最小值,max最大值) g = df['某列'].fillna(f) #使用平均值填充 print('某表'.fillna(0)) #使用0填补缺失值空值
#删除包含重复值的行 h = df.drop_duplitcates(subset='某列',keep='first') #删除某列中有重复值的行(只保留第一次出现的行)