Scikit-Learn 提供了一个方便函数处理缺失值: Imputer 。
下面是其使用方法:
首先,需要 创建一个 Imputer 实例,指定用某属性的中位数来替换该属性所有的缺失值:
from sklearn.preprocessing import Imputer
imputer = Imputer(strategy="median")
imputer.fit(df)
imputer 计算出了每个属性的中位数,并将结果保存在了实例变量 statistics_ 中。虽然此时 只有属性 total_bedrooms 存在缺失值,但我们不能确定在以后的新的数据中会不会有其他属性也存在缺失值,所以安全的做法是将 imputer 应用到每个数值:
>>