【数据分析-26】特殊值处理-CSDN博客

本文链接：https://blog.csdn.net/m0_69378371/article/details/145544888

在数据分析和数据清理过程中，特殊值（如缺失值、无穷大、负无穷、零或异常值等）是非常常见的。处理这些特殊值是确保分析结果准确性的关键步骤。Pandas 提供了多种方法来检测、处理和清理这些特殊值。以下是一些常见的特殊值及其处理方式。

缺失值（NaN，Not a Number）在数据集中非常常见，尤其是在数据合并、读取外部数据源时。Pandas 提供了多种处理缺失值的方法。

使用 isna() 或 isnull() 方法可以检测 NaN 值，返回一个布尔型的 DataFrame 或 Series。

import pandas as pd

# 创建一个数据集，其中包含缺失值
data = {'A': [1, 2, None, 4], 'B': [None, 3, 4, 5]}
df = pd.DataFrame(data)

# 检测缺失值
print(df.isna())

输出：

       A      B
0  False   True
1  False  False
2   True  False
3  False  False

Pandas 提供了 fillna() 方法来填充缺失值。可以使用常数、均值、中位数或其他列的数据来填充。

# 用常数填充
df_filled = df.fillna(0)

# 用列的均值填充
df_filled_mean = df.fillna(df.mean())

dropna() 方法用于删除缺失值所在的行或列。

# 删除含有缺失值的行
df_dropped = df.dropna()

# 删除含有缺失值的列
df_dropped_columns = df.dropna(axis=1)

使用 ffill() 和 bfill() 可以进行前向填充和后向填充。

# 前向填充
df_filled_ffill = df.ffill()

# 后向填充
df_filled_bfill = df.bfill()

数据集中有时会出现无穷大（Inf）和负无穷大（-Inf），这些值通常表示计算中的异常或错误。在 Pandas 中，np.inf 表示正无穷，-np.inf 表示负无穷。

可以使用 np.isinf() 来检测无穷大值。

import numpy as np

# 创建数据集
data = {'A': [1, np.inf, 3, -np.inf], 'B': [4, 5, np.inf, -np.inf]}
df = pd.DataFrame(data)

# 检测无穷大
print(np.isinf(df))

输出：

       A      B
0  False  False
1   True  False
2  False   True
3   True   True

可以用 replace() 方法将无穷大值替换为其他值（如 NaN 或常数）。

# 将无穷大值替换为 NaN
df_replaced_inf = df.replace([np.inf, -np.inf], np.nan)

有时数据中的零值可能并不是有效的数值，特别是在计算某些比率或进行除法操作时。可以根据需要处理零值。

使用 == 0 或 eq(0) 来检测零值。

# 检测零值
zero_values = df == 0

可以用 replace() 方法将零值替换为其他数值，例如填充一个非常小的数值（如 1e-6）。

# 替换零值
df_no_zeros = df.replace(0, 1e-6)

如果不需要零值所在的行或列，可以使用 drop() 方法进行删除。

# 删除零值所在的行
df_no_zeros = df[df != 0]

异常值是指偏离正常数据范围的值，通常是错误输入或数据测量异常。异常值的定义依赖于具体的上下文和业务需求，可以使用统计方法（如 Z 分数）来识别异常值。

通过计算 Z 分数（Z-score）或使用箱线图方法，可以识别出数据集中的异常值。

from scipy import stats

# 计算 Z 分数
z_scores = stats.zscore(df)

# 计算四分位数
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

# 检测异常值
outliers = (df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))

异常值可以通过以下方式进行处理：

# 替换异常值为均值
df_no_outliers = df.mask(outliers, df.mean())

# 删除异常值
df_no_outliers = df[~outliers.any(axis=1)]

有时数据中可能包含特定的标记值，如 -9999、9999、"unknown" 等，这些值表示缺失或无效数据。

可以通过 replace() 方法替换这些自定义的无效值。

# 替换 -9999 和 "unknown" 为 NaN
df_replaced_custom = df.replace([-9999, "unknown"], np.nan)

可以直接删除含有自定义值的行或列。

# 删除自定义值
df_cleaned = df[(df != -9999).all(axis=1)]

特殊值的处理是数据清洗中非常重要的一部分。通过合理地检测、替换和处理缺失值、无穷大、零值、异常值和自定义标记值，可以显著提高数据质量，从而确保分析结果的准确性和有效性。Pandas 提供了丰富的工具来处理这些特殊值，能够帮助我们更灵活地应对各种数据问题。