【特征工程】(一)数据集中缺失值的处理

本文介绍了数据集中缺失值的处理方法,包括使用Pandas库查看和删除缺失值,以及在实际案例中如何预处理数据。讨论了删除、填充等策略,并提供了处理疝气病数据集的例子。
摘要由CSDN通过智能技术生成

目录

引言

一、可选处理方法

二、Python中Pandas库处理缺失值

1.查看数据缺失值得分布情况

2.删除包含缺失值的数据

   2.1. 删除包含缺失值的行或列

    2.2. 根据条件删除包含缺失值的数据

三、Python中其他库处理缺失值

四、缺失值处理案例(一)----疝气病数据集预处理

1.处理缺失值,以便使用分类算法


引言

       数据中的缺失值是一个非常棘手的问题,那么数据缺失究竟带来了多少问题?假设有100个样本和20个特征,这些数据都是机器收集回来的,若机器上的某个传感器损坏导致一个特征无效时该怎么办?此时是否扔掉整个数据集?这种情况下,另外19个特征怎么办?它们是否还可用?答案是肯定的。因为有时数据相当昂贵,扔掉和重新获取都是不可取的,所以必须采用一些方法来解决这个问题。

一、可选处理方法

下面给出了一些可选的做法:

  (1)使用可用特征的均值来填补缺失值;

  (2)使用特征值来填补缺失值,如-1;

  (3)忽略有缺失值的样本;

  (4)使用相似样本的均值填补缺少值;

  (5)使用另外的机器学习算法预测缺失值。


二、Python中Pandas库处理缺失值

1.查看数据缺失值得分布情况

 【注】:缺失情况如上

   1.1. 统计每列数据缺失值的分布情况

import pandas as pd
     
data = pd.read_csv("./data.csv")

#统计每列数据缺失值的分布情况
print(data.isnull().sum())

#统计每行数据缺失值的分布情况
#通过指定参数axis=1来实现对每行数据的缺失值进行统计,默认是axis=0表示列。
print(data.isnull().sum(axis=1))

 

2.删除包含缺失值的数据

处理缺失

  • 7
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值