首先数据格式是DataFrame
一、填充缺失值
1.在填充之前可以查看哪些数据缺失和缺失的个数
# 查看缺失值
data_train.isnull().sum()
2.一般特征值中用平均值来填充,而标签中用众数来填充,numerical_fea是你要填充的列名,在DataFrame中一般是字符串格式,如[‘grade’,‘subGrade’]
# 按照平均数填充数值特征
data_train[numerical_fea] = data_train[numerical_fea].fillna(data_train[numerical_fea].median())
data_test_a[numerical_fea] = data_test_a[numerical_fea].fillna(data_test_a[numerical_fea].median())
# 按照众数填充类别特征
data_train[category_fea] = data_train[category_fea].fillna(data_train[category_fea].mode())
data_test_a[category_fea] = data_test_a[category_fea].fillna(data_test_a[category_fea