假设我们有DataFrame数据data。
首先查看缺失值:
data.isnull().sum()
isnull()是按照列统计的,获得的是bool值缺失值的地方是True,再使用sum()进行求和。就可以统计出每一列的缺失值个数。
接下来,假设有两个特征feature_1 和 feature_2。feature_1有缺失值,而feature_2没有缺失值。我们把feature_1缺失的值使用同一行的feature_2的值填充。
index = data[data[feature_1].isnull()].index
data[feature_1][index] = data[feature_2][index]
data.isnull().sum()