实验二泰坦尼克号乘客获救预测（源代码）

Abandon145

已于 2022-04-21 13:09:04 修改

阅读量428

点赞数 2

文章标签： python

于 2022-04-01 22:30:26 首次发布

本文链接：https://blog.csdn.net/Abandon145/article/details/123909701

版权

本文通过实验分析泰坦尼克号乘客数据，利用Python进行数据预处理及建立预测模型，探究影响乘客生存的因素，包括年龄、性别、船舱等级等。通过训练和测试数据集验证模型准确性。

摘要由CSDN通过智能技术生成

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

data_raw = pd.read_csv('train.csv')
data_val = pd.read_csv('test.csv')
# 列名转换成小写
# data_raw.columns=data_raw.columns.str.lower()
print(data_raw.head())
print(data_raw.info())
# 统计获救人员情况
print(data_raw['Survived'].value_counts())
# 绘图统计
# sns.countplot(data_raw['Survived'])
# plt.show()
# 查看数据集中的空值
print(data_raw.isnull().sum())
print(data_val.isnull().sum())
# 数据清洗
print(data_raw.describe())
# 补足年龄、票价和登船港口空缺值，年龄和票价用数据的中位数
data_raw['Age'].fillna(data_raw['Age'].median(), inplace=True)
data_val['Age'].fillna(data_val['Age'].median(), inplace=True)
data_raw['Fare'].fillna(data_raw['Fare'].median(), inp