目前处理缺失值的方法有以下几种,
1.用平均值、中值、分位数、众数、随机值等替代。
用sklearn的相关包进行缺失值填充,strategy可以赋值为‘mean’,‘median’,‘most_frequent’,分别代表均值,中位数,众数。
import pandas as pd from sklearn.preprocessing import Imputer train_data = pd.read_csv('/360/featureEngineer/trainData/train_data.csv') values_data = train_data.values imputer = Imputer(missing_values='NaN', strategy='mean', axis=0) data_filled = imputer.fit_transform(values_data)
也可以将NaN值作为一个特征,用0填充
import pandas as pd data = pd.read_csv('data.csv') data_filled = data.fillna(0)
用均值填充
data.fillna(data.mean()) # 将所有行用各自的均值填充 data.fillna(data.mean()['f