缺失数据处理

缺失数据意味着我们的数据集可能是不完整的,之前的例子中


德国的缺了薪水,西班牙的缺了年龄。对于缺失的数据最简单的处理方法就是删除这两行数据,但是这样的话可能会遗失重要的信息,所以要采取一个更好的方法,最常用的方法就是,取这一列的平均值,或者是最常见的值来对缺失的数据进行补充。

我们用工具来完成这个过程

from sklearn.preprocessing import Imputer

sklearn是数据挖掘和数据分析的标准库,preprocessing是数据预处理的工具,Imputer是用于处理数据缺失,里面包含了许多处理缺失数据的策略

Imputer第一个参数missing_values对应缺失数据,dafault = "NaN",第二个参数strategy,表示使用哪一种策略来处理缺失数据,default="mean"(平均值),或者是median中位数,most_frequent出现次数最多的,第三个参数axis表示取行平均值还是列平均值。

imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)

然后使用数据来拟合Imputer对象,先拟合第二列和第三列

imputer = imputer.fit(X[:, 1:3])

X[:, 1:3] = imputer.transform(X[:, 1:3)

可以看到结果



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值