数据分析之缺失值处理

数据质量分析

数据质量分析是数据预处理的前提,没有可信的数据,数据挖掘构建的模型将是空中楼阁。

数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指不符合要求,以及不能直接进行相应分析的数据。包括:

1)缺失值

2)异常值

3)不一致的值

4)重复数据及含有特殊符号(如#,¥,*等)的数据。

本文只介绍缺失值处理:

缺失值处理

 1)删除

删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如5%以内);

或者删除缺失值所对应的变量(前提是该变量中包含的缺失值比例非常高,如70%左右);

 2)替换

直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值;

其好处是缺失值的处理速度快;弊端是易产生有偏估计,导致缺失值替换的准确性下降;

3)插补

利用有监督的机器学习方法(如回归模型、树模型、网络模型等)对缺失值作预测;

其优势在于预测的准确性高;缺点是需要大量的计算,导致缺失值的处理速度大打折扣。

缺失值——识别

判断一个数据集是否存在缺失观测,通常从两个方面入手:

1)变量的角度,即判断每个变量中是否包含缺失值;

2)数据行的角度,即判断每行数据中是否包含缺失值。关于缺失值的判断可使用isnull方法。

# 导入数据处理需要的包
import pandas as pd
import numpy as np
# 构造测试数据集
df_nan_drop = pd.DataFrame({'a':[1,1,1,np.nan],
                            'b':[2,2,np.na
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值