【python数据分析-数据预处理】如何使用python处理缺失值

最新推荐文章于 2024-08-08 14:28:23 发布

可口可乐没有乐

最新推荐文章于 2024-08-08 14:28:23 发布

阅读量1.7k

点赞数 17

文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/m0_59236602/article/details/137173679

版权

在数据处理中，第一步是对数据做清洗，主要是处理缺失值、异常值和重复值。

具体的清洗方法指对异常数据进行丢弃、填充、替换、去重等操作。

一、方法梳理

缺失值由于其存储环境不同，会有不同的表现形式。例如，在数据库中的缺失值是Null，python中的缺失值返回对象为None，pandas或numpy中的表现形式为NaN。

在对缺失值检测时，首先我们要弄清楚在我们的数据集中，缺失值的表现方式。

在找到缺失值后，具体的处理方法可分为以下几类：

丢弃

即直接删除带有缺失值的行或者列。

这种方法会减少特征，面对以下两种情况时不宜使用：

数据集中存在大量的数据缺失现象。
存在缺失值的列存在着明显的数据分布规律及特征。

2. 补全

补全是相较于丢弃而言更常用的缺失值处理方法。具体包括：

统计法：对于数值型数据，使用均值、加权均值、中位数等方法补足；对于分类数据，使用众数进行补足
模型法：基于已有其他字段，将缺失字段作为目标变量进行预测，从而得到最为可能的补全值。数值型变量采取回归模型，分类变量使用分类变量补全。
专家补全：适用于少量且有重要意义的数据
其他方法：随机法、特殊值法、多重填补等

3. 不处理

很多模型对于缺失值有容忍度或灵活的处理方法，因此在预处理阶段，并不需要做额外处理。

能够自动处理缺失值的模型包括：KNN、决策树和随机森林、神经网络、朴素贝叶斯等

二、实操

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

# 生成数据
df = pd.DataFrame(np.random.randn(6,4),columns = ['col1','col2','col3','col4'])
# 增加缺失值
df.iloc[1:2,1] = np.nan
# 增加缺失值
df.iloc[4,3] = np.nan
print(df)
-----------------------------------------
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
1 -0.316670       NaN -1.114521  1.843260
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
4  3.254147 -0.971884 -1.093605       NaN
5  0.178115  1.435047  1.161732 -0.248517

# 查看有哪些值缺失
nan_null = df.isnull()
print(nan_null)
-----------------------------------------
    col1   col2   col3   col4
0  False  False  False  False
1  False   True  False  False
2  False  False  False  False
3  False  False  False  False
4  False  False  False   True
5  False  False  False  False

# 查看有哪些列缺失
nan_col1 = df.isnull().any()
print(nan_col1)
-----------------------------------------
col1    False
col2     True
col3    False
col4     True
dtype: bool

# 查看全部缺失的列
nan_col2 = df.isnull().all()
print(nan_col2)
-----------------------------------------
col1    False
col2    False
col3    False
col4    False
dtype: bool

# 丢弃缺失值
df2 = df.dropna()
print(df2)
-----------------------------------------
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
5  0.178115  1.435047  1.161732 -0.248517

# 使用sklearn将缺失值替换为特定值（以平均值为例）
nan_model = SimpleImputer(missing_values=np.nan,strategy='mean')
nan_result = nan_model.fit_transform(df)
print(nan_result)
-----------------------------------------
[[ 0.43395845  0.59105794 -0.61284234 -3.06273187]
 [-0.31667021  0.42519893 -1.11452071  1.84326008]
 [-1.56763396 -0.29917364  0.89284028  1.02360524]
 [-0.32552126  1.37094719  1.12160529  1.37690458]
 [ 3.25414698 -0.97188394 -1.09360498  0.18650413]
 [ 0.17811483  1.43504711  1.16173166 -0.24851737]]

# 使用pandas将缺失值替换为特定值
nan_result_pd1 = df.fillna(method='backfill') # 用后一个值替换缺失值
nan_result_pd2 = df.fillna(method='backfill',limit=1) # 用后一个值替换缺失值，限制每列只能替换一个缺失值
nan_result_pd3 = df.fillna(method='pad') # 用前一个值替换缺失值
nan_result_pd4 = df.fillna(0) # 用0替换缺失值
nan_result_pd5 = df.fillna({'col2':1.1,'col4':1.2}) # 对特定列的缺失值填充具体数据
nan_result_pd6 = df.fillna(df.mean()['col1':'col4']) # 用均值填充缺失值

print(nan_result_pd1)
print(nan_result_pd2)
print(nan_result_pd3)
print(nan_result_pd4)
print(nan_result_pd5)
print(nan_result_pd6)
-----------------------------------------
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
1 -0.316670 -0.299174 -1.114521  1.843260
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
4  3.254147 -0.971884 -1.093605 -0.248517
5  0.178115  1.435047  1.161732 -0.248517
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
1 -0.316670 -0.299174 -1.114521  1.843260
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
4  3.254147 -0.971884 -1.093605 -0.248517
5  0.178115  1.435047  1.161732 -0.248517
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
1 -0.316670  0.591058 -1.114521  1.843260
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
4  3.254147 -0.971884 -1.093605  1.376905
5  0.178115  1.435047  1.161732 -0.248517
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
1 -0.316670  0.000000 -1.114521  1.843260
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
4  3.254147 -0.971884 -1.093605  0.000000
5  0.178115  1.435047  1.161732 -0.248517
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
1 -0.316670  1.100000 -1.114521  1.843260
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
4  3.254147 -0.971884 -1.093605  1.200000
5  0.178115  1.435047  1.161732 -0.248517
       col1      col2      col3      col4
0  0.433958  0.591058 -0.612842 -3.062732
1 -0.316670  0.425199 -1.114521  1.843260
2 -1.567634 -0.299174  0.892840  1.023605
3 -0.325521  1.370947  1.121605  1.376905
4  3.254147 -0.971884 -1.093605  0.186504
5  0.178115  1.435047  1.161732 -0.248517