数据清理
1.什么是数据清理,有什么常见的数据问题处理方式?
1.1目的:剔除原有的数据中“脏”的数据,提高数据的质量。
1.2 缺失值的处理方式:
删除m,填充m和插补。
2.缺失值的检测与处理?
1.缺失值的检测:
常见的函数:isnull(), notnull(), isna() 和 notna() .
2.例子:
import pandas as pd
import numpy as np
na_df = pd.DataFrame({"A":[1,2,np.NaN,4],"B:[3,4,4,5],"c"[5,6,7,8],"D"[7,5,np.NaN]})
na_df.isna()
2.缺失值的处理
2.1 删除缺失值
dropna()方式:删除缺失值所在的一行或一列数据,并返回一个删除缺失后的新对象。
语法格式:DataFrame.dropna(axis=0,how='any' . thresh=None,subset = None,inplace=False)
axis:表示是否删除包含缺失值的行或列。 how :表示保留的行或列。
subset:表示删除指定列的缺失值。
2.2 填充缺失值
fillna()的方法 ,可以指定的数据填充,也可以使用缺失值前面或后面的数据填充。
DataFrame.fillna (value = None, method=None , axis=None, inplace = False, limit = None)
value: 表示填充的数据。 method:表示填充的方式,axis:表示是否填充包含缺失值的行或列。
limit:表示连续填充的最大数据。
2.3插补缺失值
interpolate()
DataFrame.interpolate(method='linear' , axis=0 ,limit =None ,inplace = False ,)
5.3 重复的检测与处理
·1.duplicataed()方法
DataFrame.duplicated(subset = None , keep = 'first')
subset:表示识别重复项的索引。
keep:表示采用哪种方式保留重复项。
2.drop_duplicates()方法
DataFrame.drop_duplicates(subset=None ,keep='first',inplace='False')
person_info.drop_duplicates()