《动手学数据分析》第二章学习笔记
1.缺失值观察与处理
查看数据信息
df.info()
缺失值统计
df.isnull().sum()
df.isnull().any()
缺失值处理
-
isnull()用来找出缺失值的位置,返回一个bull类型的掩码标记缺失值
-
notnull()是找出非空值并用bull值进行标记
-
dropna()就是字面意思,即丢掉缺失值
df.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
- fillna()的作用是填充缺失值
2.重复值观察与处理
查看重复值
df.duplicated()
处理重复值
duplicated():用于标记是否有重复值
duplicated(subset=None, keep=“first”)
drop_duplicates():用于删除重复值
drop_duplicated(subset=None, keep=“first”, inplace=False)
3.特征观察与处理
离散化处理
实现连续数据离散化处理主要基于两个函数,pandas.cut 和 pandas.qcut,前者根据指定分界点对连续数据进行分箱处理,后者则可以根据指定箱子的数量对连续数据进行等宽分箱处理,所谓等宽指的是每个箱子中的数据量是相同的
eg:将“年龄”分为5个区间
df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])
df.head()