使用Python Pandas进行全面数据质量检查

python慕遥

于 2024-11-06 09:30:00 发布

阅读量693

点赞数 5

分类专栏： Pandas 文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/csdn1561168266/article/details/143537339

版权

Pandas 专栏收录该内容

45 篇文章

订阅专栏

大家好，在数据分析的过程中，确保数据的准确性和完整性是关键的一步。数据验证的目的是识别和纠正数据中的错误，从而提高数据的质量，确保分析结果的可信度和可靠性。Python的Pandas库为大家提供了强大的工具，帮助大家高效地进行数据验证和清洗工作。

数据验证是数据分析中的关键步骤，通过验证，可以提前发现和处理以下常见数据问题：数据类型错误、数据范围异常、重复数据、缺失值等。这些问题如果不及时发现并处理，可能会导致分析结果的不准确。因此，在进行数据分析之前，首先要对数据进行系统的验证。

1.数据类型验证

验证数据类型是数据清洗的第一步，确保每个字段的数据类型正确能够避免后续分析过程中出现错误。Pandas提供了dtypes属性来检查每列的数据类型。

1.1 数据类型验证

import pandas as pd

# 创建一个示例数据集
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': ['24', '30', '22', '29'],  # age应该是数值类型
    'salary': [50000, 60000, 55000, '65000']  # salary中有一个字符串类型
}
df = pd.DataFrame(data)

# 检查数据类型
print("数据类型检查：")
print(df.dtypes)

在上面的示例中，age和salary列中包含错误的字符串数据类型。为了确保数据质量，需要将这些字段转换为正确的类型。

1.2 修正数据类型

# 将age和salary转换为数值类型
df['age'] = pd.to_numeric(df['age'], errors='coerce')
df['salary'] = pd.to_numeric(df['salary'], errors='coerce')

print("\n数据类型修正后：")
print(df.dtypes)

pd.to_numeric()函数能够将字符串转换为数值类型，并且通过errors='coerce'参数，可以将无法转换的值处理为NaN，方便后续的进一步清洗。

2.范围检查

数据的合理范围是验证数据质量的重要标准。例如，年龄不可能是负数，工资也不应出现异常高的值。通过检查数据的范围，可以识别出明显的异常值。

# 检查年龄范围
invalid_ages = df[(df['age'] < 0) | (df['age'] > 100)]
print("\n年龄异常的数据：")
print(invalid_ages)

# 检查工资范围
invalid_salaries = df[(df['salary'] < 0) | (df['salary'] > 1000000)]
print("\n工资异常的数据：")
print(invalid_salaries)

在这个示例中，通过简单的条件筛选找出了不在合理范围内的值。此时可以根据业务需求决定如何处理这些异常值，通常的处理方法是将异常值修正为合理范围内的值，或将其标记为缺失值。

3.重复值检测

重复数据是数据集中的一大常见问题，特别是当数据来自多个来源或通过合并操作后。Pandas的duplicated()函数可以轻松检测和处理重复值。

# 创建一个包含重复数据的示例数据集
data_with_duplicates = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'],
    'age': [24, 30, 22, 29, 24],
    'salary': [50000, 60000, 55000, 65000, 50000]
}
df_duplicates = pd.DataFrame(data_with_duplicates)

# 检测重复行
print("\n重复行检测：")
print(df_duplicates.duplicated())

# 删除重复行
df_no_duplicates = df_duplicates.drop_duplicates()
print("\n删除重复行后的数据：")
print(df_no_duplicates)

在这个示例中，drop_duplicates()函数用于删除重复的行，确保数据集中每条记录都是唯一的。

4.缺失值处理

缺失值在数据集中非常常见，特别是在从外部数据源获取数据时，处理缺失值是确保数据完整性的关键步骤。Pandas提供了多种方法来识别和处理缺失值。

# 创建一个包含缺失值的示例数据集
data_with_na = {
    'name': ['Alice', 'Bob', 'Charlie', None],
    'age': [24, None, 22, 29],
    'salary': [50000, 60000, None, 70000]
}
df_na = pd.DataFrame(data_with_na)

# 检查缺失值
print("\n缺失值检测：")
print(df_na.isnull().sum())

# 删除包含缺失值的行
df_dropped_na = df_na.dropna()
print("\n删除缺失值后的数据：")
print(df_dropped_na)

# 使用填充值处理缺失值（例如用均值填充）
df_filled_na = df_na.fillna(df_na.mean(numeric_only=True))
print("\n使用均值填充后的数据：")
print(df_filled_na)

在这个示例中，isnull()函数用于检测每列中的缺失值数量，dropna()函数用于删除缺失值所在的行，而fillna()函数则用于填充缺失值，这里我们使用了每列的均值进行填充。

5.数据验证的自动化

在大规模数据分析中，手动检查每一个字段和记录是不可行的。为此，可以编写自动化的数据验证脚本，通过设定规则来自动检查数据集的质量。

def validate_data(df):
    # 数据类型验证
    if df['age'].dtype != 'int64' or df['salary'].dtype != 'float64':
        print("数据类型验证失败")
    
    # 范围验证
    if not df['age'].between(0, 100).all():
        print("年龄超出范围")
    if not df['salary'].between(0, 1000000).all():
        print("工资超出范围")

    # 重复值检测
    if df.duplicated().any():
        print("发现重复数据")

    # 缺失值检测
    if df.isnull().values.any():
        print("发现缺失值")

# 创建测试数据
df_test = pd.DataFrame({
    'age': [25, -5, 22, 105],  # 包含错误年龄
    'salary': [50000, 60000, None, 7000000]  # 包含缺失值和超出范围的工资
})

# 执行验证
validate_data(df_test)

在这个自动化验证脚本中，通过设定规则来检查数据的各个方面，确保数据在类型、范围、重复性和缺失值方面都符合要求。如果验证失败，则输出相应的提示信息。

综上所述，使用Pandas进行数据验证，可以确保数据的准确性和完整性。通过验证数据类型、范围、重复值和缺失值，可以有效地提高数据质量，减少数据中的错误，并为后续的分析和建模提供可靠的数据基础。