数据的预处理之缺失值处理

在模型训练前,数据预处理至关重要,尤其是处理缺失值。缺失值可能因多种原因存在,直接忽略可能导致算法异常。本文介绍了如何利用Python的pandas库检查数据缺失值分布,并提供了删除和有条件删除含缺失值数据的策略,如删除全空行、按阈值删除、按列删除等。
摘要由CSDN通过智能技术生成

在训练一个模型之前需要做数据的预处理,因为模型的最终效果决定于数据的质量和数据中蕴含的有用信息的数量。在实际的模型的训练样本数据中,样本可能会由于某些原因,造成一个或多个值的缺失。可能由于样本采集过程中的失误,或者度量方法对于某些特征不适用,或者数据未被填写等。在表格中缺失值通常是以空值的形式或者是NA(Not A Number)存在的。如果我们直接忽视这些缺失值可能有些算法无法处理这些缺失值,将会触发异常。如果,我们之间将包含缺失值的数据删除就会造成数据的浪费,而且有时候可能数据本来就不多,删除包含缺失值的数据之后数据就更少了,这将会影响我们训练出来模型的泛化能力。对于数据较多的情况,可以做一些删除处理。除此之外,我们还可以对缺失值进行填充,下面就介绍一些缺失数据的处理方式。


在使用python进行数据分析处理的时候,我们可以通过第三方库pandas来进行,可以极大的简化处理步骤。

一、查看数据缺失值的分布情况
1.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

修炼之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值