基于泰坦尼克号数据集的数据预处理实验

最新推荐文章于 2025-04-13 09:53:24 发布

codecode入川

最新推荐文章于 2025-04-13 09:53:24 发布

阅读量2.2k

点赞数 26

文章标签： python scikit-learn pillow 机器学习

本文链接：https://blog.csdn.net/m0_67274307/article/details/137039870

版权

实验框架：

1. 实验目的：

理解并实践数据预处理的各个步骤。
提高处理大型、真实数据集的能力。

2. 选取数据集：

选择一个公共的、大型数据集，例如UCI Machine Learning Repository的成人收入（Adult）数据集，或Kaggle的泰坦尼克号（Titanic）乘客数据集。这些数据集具有复杂性和实用性，适合进行综合的数据预处理实验。

3. 数据预处理步骤：

a. 数据清理：

缺失值处理：使用统计方法（如平均值、中位数、众数）填补缺失值。
异常值处理：基于统计测试（如Z-score）识别并处理异常值。

b. 数据集成：

数据源合并：如果使用多个数据源，需要合并数据，处理ID不匹配和数据冗余问题。

c. 数据变换：

规范化/标准化：将数值特征转换为标准格式，确保模型正确解释。
特征编码：将类别特征转换为模型可理解的数值特征，如使用独热编码（One-hot Encoding）。

d. 数据归约：

特征选择：选择最重要的特征，减少模型复杂度。
维度降低：使用PCA或其他方法减少数据集的维度。

e. 离散化和概念分层：

离散化：将连续特征转换为离散特征，便于分析。
概念分层：为类别特征创建层次，简化模型和提高可解释性。

4. 实验实现：

使用Python及其科学计算和数据处理库（如Pandas、NumPy、Scikit-learn）实现上述数据预处理步骤。每一步应该包括代码实现、结果展示和分析。

5. 结果分析和讨论：

讨论数据预处理对最终数据分析或机器学习模型的影响。展示预处理前后数据的对比，包括数据的质量、模型的性能等方面的变化。

实验总结：

这个综合实验不仅帮助掌握数据预处理的理论和实践，还提升了他们解决实际数据问题的能力。通过处理真实的、大型数据集，可以更好地理解数据预处理在数据分析和机器学习中的重要性。

实验完整代码：

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from scipy.stats import zscore
import matplotlib.pyplot as plt
import seaborn as sns

# 假设泰坦尼克号数据集已经下载到本地，路径为'titanic.csv'
# 数据集可以从Kaggle或其他数据源获得
data = pd.read_csv('titanic.csv')

# 数据清理
# 填充缺失值
data['Age'].fillna(data['Age'].median(), inplace=True)
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# 删除异常值（使用票价为例）
data['Fare_Zscore'] = zscore(data['Fare'])
data = data[data['Fare_Zscore'].abs() <= 3]
data.drop('Fare_Zscore', axis=1, inplace=True)

# 数据变换
# 特征规范化（最小-最大规范化）
scaler = StandardScaler()
data[['Age', 'Fare']] = scaler.fit_transform(data[['Age', 'Fare']])

# 特征构造
data['FamilySize'] = data['SibSp'] + data['Parch']

# 数据归约
# 这里以简化为例，只保留几个特征
data_reduced = data[['Survived', 'Pclass', 'Sex', 'Age', 'Fare', 'FamilySize', 'Embarked']]

# 离散化和概念分层生成
# 年龄离散化
data_reduced['AgeCategory'] = pd.cut(data['Age'], bins=[-np.inf, -0.5, 0.5, np.inf], labels=['Young', 'Middle-Aged', 'Old'])

# 票价离散化
data_reduced['FareCategory'] = pd.cut(data['Fare'], 4, labels=['Low', 'Medium', 'High', 'Very High'])

# 对性别和登船地点进行one-hot编码
data_final = pd.get_dummies(data_reduced, columns=['Sex', 'Embarked'], drop_first=True)

# 可视化处理后的数据特征
plt.figure(figsize=(10, 6))
sns.countplot(x='AgeCategory', hue='Survived', data=data_final)
plt.title('Survival by Age Category')
plt.show()

plt.figure(figsize=(10, 6))
sns.countplot(x='FareCategory', hue='Survived', data=data_final)
plt.title('Survival by Fare Category')
plt.show()

# 保存处理后的数据集
data_final.to_csv('processed_titanic_data.csv', index=False)

print("数据预处理完成并保存。")

数据集下载
https://pan.baidu.com/s/1kXOBCbtkbtqkkSALQ4lMkQ

提取码：jmzp