Python数据分析：数据清洗、填充、NaN值与异常值处理

闲人编程

已于 2025-01-10 19:27:35 修改

阅读量1k

点赞数 8

分类专栏： python 文章标签： python 数据分析机器学习异常值 NaN 清洗

于 2024-10-31 14:10:52 首次发布

本文链接：https://blog.csdn.net/qq_42568323/article/details/143395802

版权

python 专栏收录该内容

124 篇文章

订阅专栏

引言

数据分析是现代数据科学中的关键环节，数据清洗、填充、NaN值处理以及异常值检测等步骤是确保分析结果可靠性的基础。本博客将详细探讨如何在Python中实现这些步骤，使用面向对象的思想，结合具体案例和代码示例进行讲解，帮助读者深入理解数据分析的实践过程。

一、数据清洗

数据清洗是指识别和修正数据中的错误和不一致性，使其适合进一步分析。数据清洗的主要任务包括删除重复值、处理缺失值和异常值等。

1.1 删除重复值

在数据集中，重复的数据会影响分析结果的准确性。使用Pandas库可以轻松删除重复值。

import pandas as pd

class DataCleaner:
    def __init__(self, data):
        self.data = data

    def remove_duplicates(self):
        self.data.drop_duplicates(inplace=True)

# 示例
data = {
    'id': [1, 2, 2, 3],
    'name': ['Alice', 'Bob', 'Bob', 'Charlie'],
    'age': [25, 30, 30, 35]
}
df = pd.DataFrame(data)
cleaner = DataCleaner(df)
print("原始数据:")
print(cleaner.data)
cleaner.remove_duplicates()
print("\n去重后的数据:")
print(cleaner.data)

1.2 处理缺失值

数据中的缺失值会导致分析偏差，常见的处理方法包括删除缺失值和填充缺失值。

1.2.1 删除缺失值

class DataCleaner:
    def __init__(self, data):
        self.data = data

    def remove_duplicates(self):
        self.data.drop_duplicates(inplace=True)

    def drop_missing_values(self):
        self.data.dropna(inplace=True)

# 示例
data = {
    'id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', None, 'Charlie'],
    'age': [25, None, 35, 40]
}
df = pd.DataFrame(data)
cleaner = DataCleaner(df)
print("原始数据:")
print(cleaner.data)
cleaner.drop_missing_values()
print("\n删除缺失值后的数据:")
print(cleaner.data)

1.2.2 填充缺失值

填充缺失值可以使用均值、中位数、众数等方法。

class DataCleaner:
    def __init__(self, data):
        self.data = data

    def fill_missing_values(self, method='mean'):
        if method == 'mean':
            self.data.fillna(self.data.mean(), inplace=True)
        elif method == 'median':
            self.data.fillna(self.data.median(), inplace=True)
        elif method == 'mode':
            self.data.fillna(self.data.mode().iloc[0], inplace=True)

# 示例
data = {
    'id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', None, 'Charlie'],
    'age': [25, None, 35, 40]
}
df = pd.DataFrame(data)
cleaner = DataCleaner(df)
print("原始数据:")
print(cleaner.data)
cleaner.fill_missing_values(method='mean')
print("\n填充缺失值后的数据:")
print(cleaner.data)

二、NaN值处理

NaN（Not a Number）值常用于表示缺失数据。有效处理NaN值是数据清洗的关键环节。

2.1 NaN值识别

可以使用isna()和isnull()方法识别NaN值。

class DataCleaner:
    def __init__(self, data):
        self.data = data

    def identify_nan(self):
        return self.data.isna()

# 示例
data = {
    'id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', None, 'Charlie'],
    'age': [25, None, 35, 40]
}
df = pd.DataFrame(data)
cleaner = DataCleaner(df)
print("NaN值识别:")
print(cleaner.identify_nan())

2.2 NaN值填充

填充NaN值可以使用不同的方法，具体方法取决于数据的性质。

class DataCleaner:
    def __init__(self, data):
        self.data = data

    def fill_nan_with_value(self, value):
        self.data.fillna(value, inplace=True)

# 示例
data = {
    'id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', None, 'Charlie'],
    'age': [25, None, 35, 40]
}
df = pd.DataFrame(data)
cleaner = DataCleaner(df)
print("原始数据:")
print(cleaner.data)
cleaner.fill_nan_with_value('Unknown')
print("\n填充NaN值后的数据:")
print(cleaner.data)

三、异常值处理

异常值是指在数据集中与其他值显著不同的数据点。处理异常值对数据分析的准确性至关重要。

3.1 异常值识别

常用的方法包括标准差法和IQR（四分位数间距）法。

3.1.1 标准差法

class OutlierDetector:
    def __init__(self, data):
        self.data = data

    def identify_outliers_z_score(self, column):
        mean = self.data[column].mean()
        std_dev = self.data[column].std()
        threshold = 3  # 通常使用3个标准差
        return self.data[(self.data[column] < mean - threshold * std_dev) |
                         (self.data[column] > mean + threshold * std_dev)]

# 示例
data = {
    'id': [1, 2, 3, 4, 5, 6],
    'age': [25, 30, 35, 100, 40, 45]  # 100为异常值
}
df = pd.DataFrame(data)
detector = OutlierDetector(df)
print("异常值识别:")
print(detector.identify_outliers_z_score('age'))

3.1.2 IQR法

class OutlierDetector:
    def __init__(self, data):
        self.data = data

    def identify_outliers_iqr(self, column):
        Q1 = self.data[column].quantile(0.25)
        Q3 = self.data[column].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        return self.data[(self.data[column] < lower_bound) | (self.data[column] > upper_bound)]

# 示例
data = {
    'id': [1, 2, 3, 4, 5, 6],
    'age': [25, 30, 35, 100, 40, 45]
}
df = pd.DataFrame(data)
detector = OutlierDetector(df)
print("异常值识别（IQR法）:")
print(detector.identify_outliers_iqr('age'))

3.2 异常值处理

处理异常值的方法包括删除、替换或标记。

class OutlierHandler:
    def __init__(self, data):
        self.data = data

    def remove_outliers(self, column):
        # 使用IQR方法
        Q1 = self.data[column].quantile(0.25)
        Q3 = self.data[column].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        self.data = self.data[(self.data[column] >= lower_bound) & (self.data[column] <= upper_bound)]

# 示例
data = {
    'id': [1, 2, 3, 4, 5, 6],
    'age': [25, 30, 35, 100, 40, 45]
}
df = pd.DataFrame(data)
handler = OutlierHandler(df)
print("原始数据:")
print(handler.data)
handler.remove_outliers('age')
print("\n处理异常值后的数据:")
print(handler.data)

四、综合案例

结合数据清洗、NaN值处理和异常值处理的完整示例。

class DataProcessor:
    def __init__(self, data):
        self.data = data

    def clean_data(self):
        self.remove_duplicates()
        self.drop_missing_values()
        self.fill_missing_values(method='mean')
        self.remove_outliers('age')

    def remove_duplicates(self):
        self.data.drop_duplicates(inplace=True)

    def drop_missing_values(self):
        self.data.dropna(inplace=True)

    def fill_missing_values(self, method='mean'):
        if method == 'mean':
            self.data.fillna(self.data.mean(), inplace

=True)

    def remove_outliers(self, column):
        Q1 = self.data[column].quantile(0.25)
        Q3 = self.data[column].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        self.data = self.data[(self.data[column] >= lower_bound) & (self.data[column] <= upper_bound)]

# 示例
data = {
    'id': [1, 2, 2, 3, 4, 5, 6],
    'name': ['Alice', 'Bob', None, 'Charlie', 'David', 'Eva', 'Frank'],
    'age': [25, 30, None, 100, 40, 45, 50]
}
df = pd.DataFrame(data)
processor = DataProcessor(df)
print("原始数据:")
print(processor.data)
processor.clean_data()
print("\n清洗后的数据:")
print(processor.data)