【机器学习实例】Titanic生存预测

最新推荐文章于 2025-01-31 14:24:59 发布

CCH²¹

最新推荐文章于 2025-01-31 14:24:59 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习文章标签：机器学习 python 决策树 k-NN

本文链接：https://blog.csdn.net/qq_45554010/article/details/107947406

版权

数据集及代码链接：https://github.com/CCH21/Lab_MLGroup_Tasks/tree/master/Task_Titanic

数据集概述

如下图所示，Titanic数据集共包含有三个csv文件，其中train.csv是训练集，test.csv是待预测的测试集，gender_submission.csv是测试集的真实结果。
在这里插入图片描述

数据描述

import pandas as pd
from IPython.display import display

# 查看训练集和测试集
training_set = pd.read_csv('train.csv')
test_set = pd.read_csv('test.csv')
display(training_set)
display(test_set)

在这里插入图片描述

特征选择与数据预处理

首先，我们需要查看一下训练集和测试集的特征值缺失情况。

# 查看训练集各特征的缺失情况
for column in training_set.columns:
    print('%-15s%-10.4f%-3d' % (column, training_set[column].count() / len(training_set), training_set[column].count()))

在这里插入图片描述

# 查看测试集各特征的缺失情况
for column in test_set.columns:
    print('%-15s%-10.4f%-3d' % (column, test_set[column].count() / len(test_set), test_set[column].count()))

在这里插入图片描述
可以看出，在训练集中，Age, Cabin和Embarked特征是有缺失值的，其中Cabin的缺失值占到了超过77%的比例。在测试集中，Age, Fare和Cabin特征有缺失值。
观察数据。Cabin的缺失值过多，这时有两种解决方案，一是给所有的缺失值标记上Unknown，二是直接删除这一特征。由于船舱号比较复杂，难以进行分析，因此选择直接删除这一特征列。PassengerID肯定与最终的预测结果无关，因此删除此列。Ticket特征同样难以分析，因此删掉。比较特殊的是Name一列，它其实包含了一些人物的性别、社会地位等信息，可以保留但不易分析。其实，性别

最低0.47元/天解锁文章