数据预处理之数据清洗

01_6

于 2024-07-15 20:43:17 发布

阅读量80

点赞数 2

文章标签：算法

本文链接：https://blog.csdn.net/2301_77444219/article/details/140447493

版权

引言：

在数据分析和机器学习项目中，数据清洗（Data Cleaning）是一个至关重要的步骤。无论数据来自何处，原始数据往往包含错误、缺失值、异常值以及不一致的信息，这些都会严重影响分析结果的准确性和可靠性。本文将通过一个具体的案例，使用Python中的pandas库来展示如何进行数据清洗，将脏数据转化为可用于进一步分析的干净数据。

数据集介绍

我们将使用的数据集来源于一个矿物研究项目，数据存储在一个Excel文件中，包含了不同矿物的各种属性及其分类标签。我们的目标是清洗这些数据，以便于后续的分析和模型训练。

数据读取与初步检查

首先，我们需要使用pandas库读取Excel文件中的数据，并进行初步的数据检查。这包括查看数据的基本结构和统计信息，识别潜在的问题点。

import pandas as pd

data = pd.read_excel(r'D:\相关的数据\矿物数据.xls')
print(data.head())

数据清洗步骤

1. 移除无效类别

在初步检查后，我们发现'矿物类型'列中存在一个不需要的类别'E'，这可能是由于数据录入错误造成的。因此，我们的第一步是移除所有标记为'E'的记录。

data = data[data['矿物类型'] != 'E']

2. 处理缺失值

接下来，我们需要处理数据中的缺失值。这里我们使用isnull()函数来检查每一列的缺失情况，并统计总的缺失数量。

null_num = data.isnull()
null_count = null_num.sum()
print(null_count)

对于缺失值的处理，常见的策略有删除含有缺失值的行、填充缺失值等。考虑到本例中数据的具体情况，我们选择将缺失值转换为NaN，这样可以避免在后续数值操作中出现错误。

X_whole = data.drop('矿物类型', axis=1).drop('序号', axis=1)
for column_name in X_whole.columns:
    X_whole[column_name] = pd.to_numeric(X_whole[column_name], errors='coerce')

3. 类别编码

在进行机器学习任务时，我们需要将类别型特征转换为数值型特征。这里我们使用一个字典来映射不同的'矿物类型'到整数。

label_dict = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
encoded_labels = [label_dict[label] for label in y_whole]
y_whole = pd.Series(encoded_labels, name='矿物类型')

结语

数据清洗是一个复杂且耗时的过程，但它对于保证数据分析的质量至关重要。通过上述步骤，我们已经将原始的脏数据清洗成了可用于机器学习模型训练的形式。在实际项目中，可能还需要进一步的特征工程和数据探索，以确保模型的性能和泛化能力。数据清洗不仅仅是技术上的操作，更是一种思维方式，它要求我们对数据有深入的理解，能够识别和解决数据中存在的问题。

01_6

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据预处理之数据清洗

我们将使用的数据集来源于一个矿物研究项目，数据存储在一个Excel文件中，包含了不同矿物的各种属性及其分类标签。我们的目标是清洗这些数据，以便于后续的分析和模型训练。数据清洗是一个复杂且耗时的过程，但它对于保证数据分析的质量至关重要。通过上述步骤，我们已经将原始的脏数据清洗成了可用于机器学习模型训练的形式。在实际项目中，可能还需要进一步的特征工程和数据探索，以确保模型的性能和泛化能力。数据清洗不仅仅是技术上的操作，更是一种思维方式，它要求我们对数据有深入的理解，能够识别和解决数据中存在的问题。
复制链接

扫一扫