分类算法预测存活-Kaggle_分类算法预测乘客存活率-CSDN博客

该博客探讨了在Kaggle上的Titanic数据集上应用分类算法预测乘客存活情况。作者首先分析了目标变量Survived，接着检查数据关联性，特别是特征Pclass、Sex、SibSp和Parch与存活率的关系。接着进行特征工程，包括删除不必要特征，创建新特征，转换类别型特征以及处理缺失值。最后，文章介绍了模型建立和分析，包括逻辑回归和分类模型的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分类算法预测存活-Kaggle

查看目标变量
查看数据关联性
特征工程
建模分析

查看目标变量

1）库函数导入
在这里插入图片描述
2）导入数据集

3）查看数据集
查看所有表项

查看数据概况

查看训练集和测试集各特征数据类型及数据缺失情况

查看数据取值与数据分布（查看字符型数据，为大写字母O）

4）目标变量
预测目标为Survived
为整型数据，取值为0/1，训练集中无缺失值
0：未存活
1：存活
二分类问题。

查看数据关联性

数据量较少，依次查看特征与预测目标变量的关系
首先根据特征的类型（数值型和字符串型）进行特征分类
在这里插入图片描述

1）然后根据特征是否为类别型特征进行可视化查看：
可以看出Pclass（客舱类型）、Sex（性别）、SibSp （乘客在船上的兄弟姐妹/配偶数量）、 Parch（乘客在船上的父母/孩子数量）为类别型，根据求取均值来查看其相关性：
在这里插入图片描述
注意此处越接近0/1的，相关性越高，越接近0.5的，更倾向于随机分布。此处可以看到客舱为1的生存率更高，为3的生存率很低，客舱为2的对半。