sklearn中的常见缺失值处理

pandas中dropna()

data1.dropna(inplace=True,axis=0)
  • inplace 表示是否覆盖原数据

True:直接修改原对象
False:创建一个副本,修改副本,原对象不变(缺省默认)

  • axis=0 表示对列进行操作;1表示对行
  • how

‘any’指带缺失值的所有行;'all’指清除全是缺失值的

  • thresh

df.dropna(thresh=2) 表示保留至少有2个非NaN数据所在的行

pandas中fillna()

df["Age"].fillna(df["Age"].mean())
  • 参数inplace同样表示是否覆盖源数据

True/False

  • limit

对填充数进行限制

sklearn默认均值填补

from sklearn.impute import SimpleImputer
impute_mean = SimpleImputer()  # 使用默认的均值填补
imp_mean = impute_mean.fit_transform(x)

当strategy不填写时,默认使用均值填补

sklearn使用中位数进行填补

  • strategy=“median”
impute_median = SimpleImputer(strategy="median")  #使用中位数进行填补
imp_median = impute_median.fit_transform(x)

sklearn使用0进行填补

impute_0 = SimpleImputer(strategy="constant",fill_value=0)  #使用0进行填补
imp_0 = impute_0.fit_transform(x)

fill_value表示用什么数值进行填补,这里使用0进行填补

sklearn用众数进行缺失值填补

  • strategy=“most_frequent”

当特征是少量的文本时

impute_mode = SimpleImputer(strategy="most_frequent")
imp_mode = impute_mode.fit_transform(x)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ctr+Alt+Del

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值