import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
data_raw = pd.read_csv('train.csv')
data_val = pd.read_csv('test.csv')
# 列名转换成小写
# data_raw.columns=data_raw.columns.str.lower()
print(data_raw.head())
print(data_raw.info())
# 统计获救人员情况
print(data_raw['Survived'].value_counts())
# 绘图统计
# sns.countplot(data_raw['Survived'])
# plt.show()
# 查看数据集中的空值
print(data_raw.isnull().sum())
print(data_val.isnull().sum())
# 数据清洗
print(data_raw.describe())
# 补足年龄、票价和登船港口空缺值,年龄和票价用数据的中位数
data_raw['Age'].fillna(data_raw['Age'].median(), inplace=True)
data_val['Age'].fillna(data_val['Age'].median(), inplace=True)
data_raw['Fare'].fillna(data_raw['Fare'].median(), inp
实验二泰坦尼克号乘客获救预测(源代码)
于 2022-04-01 22:30:26 首次发布
本文通过实验分析泰坦尼克号乘客数据,利用Python进行数据预处理及建立预测模型,探究影响乘客生存的因素,包括年龄、性别、船舱等级等。通过训练和测试数据集验证模型准确性。
摘要由CSDN通过智能技术生成