缺失值、异常值、重复值处理及哑变量变换

一、数据缺失值处理

处理方法:

1、删除

2、补全:  常用补全方法有(1)用基本统计量填充(最大值、最小值、均值、中位数、众数)

                                         (2) 用表内临近值填充

                                         (3)用分类临界值、基本统计量填充

                                         (4)用回归模型填充,将缺失字段作为目标变量进行预测

                                         (5)多重插补

3、真值转换法:该方法将缺失值也作为数据分布规律的一部分,将缺失值和实际值都作为输入维度参与后续  数据处理和模型计算。

4、不处理:若后期的模型对缺失值有容忍度或有灵活的处理方法,则可不进行处理。常见的能够自动处理缺失值的模型包括:KNN、决策树、随机森林、神经网络、朴素贝叶斯、DBSCAN等。

#生成缺失数据
1
import numpy as np 2 import pandas as pd 3 df=pd.DataFrame(np.random.randn(6,3),columns=['var_1','var_2','var_3']) 4 df.ix[2,1:]=np.nan 5 df.ix[4:,0]=np.nan 6 print(df)

      var_1     var_2     var_3
0 -0.861766 -0.485220 -1.377067
1 -0.897174 -1.214410 -1.922518
2 -0.058318       NaN       NaN
3  1.101776  0.042510  0.333608
4       NaN -0.127705 -1.165975
5       NaN -1.027285 -0.005494
#查看缺失值
1
print(df[(df.isnull()).any(1)])

      var_1     var_2     var_3
2 -0.058318       NaN       NaN
4       NaN -0.127705 -1.165975
5       NaN -1.027285 -0.00549
#删除有缺失值的行
1
df2=df.dropna() 2 print(df2)

var_1    var_2     var_3
0 -0.861766 -0.48522 -1.377067
1 -0.897174 -1.21441 -1.922518
3  1.101776  0.04251  0.333608
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值