Python实战：数据清洗与预处理

最新推荐文章于 2025-03-12 17:01:23 发布

拥抱AI

最新推荐文章于 2025-03-12 17:01:23 发布

阅读量6.3k

点赞数 7

文章标签： python 开发语言

本文链接：https://blog.csdn.net/oandy0/article/details/136855507

版权

一、引言

在机器学习和数据科学项目中，数据清洗与预处理是至关重要的一步。数据清洗是指识别和纠正数据集中的错误或不一致之处，数据预处理则包括对数据进行转换、归一化、编码等操作，以便更好地适用于机器学习算法。Python作为一门流行的编程语言，拥有丰富的数据处理库，如Pandas、NumPy、Scikit-learn等，可以方便地进行数据清洗与预处理。

二、数据清洗

2.1 处理缺失值
在现实世界的数据集中，缺失值是常见的问题。处理缺失值的方法有多种，如删除缺失值、填充缺失值等。在Python中，可以使用Pandas库进行缺失值处理。

import pandas as pd
# 创建一个包含缺失值的DataFrame
data = pd.DataFrame({'A': [1, 2, None, 4], 'B': [None, 2, 3, 4]})
# 删除缺失值
data.dropna()
# 填充缺失值
data.fillna(0)  # 填充为0
data.fillna(method='ffill')  # 前向填充
data.fillna(method='bfill')  # 后向填充

2.2 处理重复值
重复值也是数据集中常见的问题。在Python中，可以使用Pandas库的drop_duplicates()方法删除重复值。

# 创建一个包含重复值的DataFrame
data = pd.DataFrame({'A': [1, 2, 2, 4], 'B': [1, 2, 2, 4]})
# 删除重复值
data.drop_duplicates()

2.3 数据类型转换
在数据集中，有时需要将数据类型从一种类型转换为另一种类型。在Python中，可以使用Pandas库的astype()方法进行数据类型转换。

# 创建一个包含多种数据类型的DataFrame
data = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
# 将列A的数据类型转换为浮点型
data['A'] = data['A'].astype(float)

三、数据预处理

3.1 数据归一化
数据归一化是将数据缩放到一个固定的范围，通常在0和1之间。在Python中，可以使用Scikit-learn库的MinMaxScaler类进行数据归一化。

from sklearn.preprocessing import MinMaxScaler
# 创建一个包含数值数据的DataFrame
data = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})
# 初始化MinMaxScaler
scaler = MinMaxScaler()
# 归一化数据
normalized_data = scaler.fit_transform(data)

3.2 数据编码
在机器学习算法中，通常需要将类别型数据转换为数值型数据。在Python中，可以使用Scikit-learn库的LabelEncoder类进行标签编码，使用OneHotEncoder类进行独热编码。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# 创建一个包含类别型数据的DataFrame
data = pd.DataFrame({'A': ['cat', 'dog', 'cat', 'bird'], 'B': [1, 2, 1, 3]})
# 初始化LabelEncoder
label_encoder = LabelEncoder()
# 标签编码
label_encoded_data = label_encoder.fit_transform(data['A'])
# 初始化OneHotEncoder
one_hot_encoder = OneHotEncoder()
# 独热编码
one_hot_encoded_data = one_hot_encoder.fit_transform(data[['A']])

3.3 特征选择
特征选择是从原始特征中选择出对模型构建最有用的特征。在Python中，可以使用Scikit-learn库的SelectKBest类进行特征选择。

from sklearn.feature_selection import SelectKBest, chi2
# 创建一个包含数值型和类别型数据的DataFrame
data = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': ['cat', 'dog', 'cat', 'bird', 'dog']})
# 初始化SelectKBest
selector = SelectKBest(score_func=chi2, k=1)
# 特征选择
selected_features = selector.fit_transform(data[['A', 'B']], data['target'])

四、实战项目：泰坦尼克号生存预测

为了更好地理解数据清洗与预处理的过程，我们将通过一个实战项目来进行演示。我们将使用泰坦尼克号数据集，这是一个著名的数据集，包含了泰坦尼克号乘客的个人信息以及他们是否幸存的标签。
4.1 数据加载与预览
首先，我们需要加载数据集并进行预览。

import pandas as pd
# 加载数据集
train_data = pd.read_csv('train.csv')
# 预览数据集
print(train_data.head())

4.2 数据清洗
接下来，我们需要对数据进行清洗，包括处理缺失值、重复值等。

# 处理缺失值
train_data.fillna(train_data.mean(), inplace=True)
# 删除重复值
train_data.drop_duplicates(inplace=True)

4.3 数据预处理
然后，我们需要对数据进行预处理，包括数据归一化、数据编码、特征选择等。

from sklearn.preprocessing import MinMaxScaler, LabelEncoder, OneHotEncoder
from sklearn.feature_selection import SelectKBest, chi2
# 数据归一化
scaler = MinMaxScaler()
train_data[['Age']] = scaler.fit_transform(train_data[['Age']])
# 数据编码
label_encoder = LabelEncoder()
train_data['Sex'] = label_encoder.fit_transform(train_data['Sex'])
one_hot_encoder = OneHotEncoder()
train_data = pd.concat([train_data, pd.DataFrame(one_hot_encoder.fit_transform(train_data[['Sex']]).toarray())], axis=1)
# 特征选择
selector = SelectKBest(score_func=chi2, k=5)
selected_features = selector.fit_transform(train_data.drop(['PassengerId', 'Survived', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1), train_data['Survived'])