【机器学习实例】Titanic生存预测

数据集及代码链接https://github.com/CCH21/Lab_MLGroup_Tasks/tree/master/Task_Titanic


数据集概述

  如下图所示,Titanic数据集共包含有三个csv文件,其中train.csv是训练集,test.csv是待预测的测试集,gender_submission.csv是测试集的真实结果。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

数据描述

import pandas as pd
from IPython.display import display

# 查看训练集和测试集
training_set = pd.read_csv('train.csv')
test_set = pd.read_csv('test.csv')
display(training_set)
display(test_set)

在这里插入图片描述在这里插入图片描述

特征选择与数据预处理

  首先,我们需要查看一下训练集和测试集的特征值缺失情况。

# 查看训练集各特征的缺失情况
for column in training_set.columns:
    print('%-15s%-10.4f%-3d' % (column, training_set[column].count() / len(training_set), training_set[column].count()))

在这里插入图片描述

# 查看测试集各特征的缺失情况
for column in test_set.columns:
    print('%-15s%-10.4f%-3d' % (column, test_set[column].count() / len(test_set), test_set[column].count()))

在这里插入图片描述
  可以看出,在训练集中,Age, CabinEmbarked特征是有缺失值的,其中Cabin的缺失值占到了超过77%的比例。在测试集中,Age, FareCabin特征有缺失值。
  观察数据。Cabin的缺失值过多,这时有两种解决方案,一是给所有的缺失值标记上Unknown,二是直接删除这一特征。由于船舱号比较复杂,难以进行分析,因此选择直接删除这一特征列。PassengerID肯定与最终的预测结果无关,因此删除此列。Ticket特征同样难以分析,因此删掉。比较特殊的是Name一列,它其实包含了一些人物的性别、社会地位等信息,可以保留但不易分析。其实,性别

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值