分类算法预测存活-Kaggle

该博客探讨了在Kaggle上的Titanic数据集上应用分类算法预测乘客存活情况。作者首先分析了目标变量Survived,接着检查数据关联性,特别是特征Pclass、Sex、SibSp和Parch与存活率的关系。接着进行特征工程,包括删除不必要特征,创建新特征,转换类别型特征以及处理缺失值。最后,文章介绍了模型建立和分析,包括逻辑回归和分类模型的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

查看目标变量

1)库函数导入
在这里插入图片描述
2)导入数据集
在这里插入图片描述
3)查看数据集
查看所有表项
在这里插入图片描述
查看数据概况
在这里插入图片描述
查看训练集和测试集各特征数据类型及数据缺失情况
在这里插入图片描述
在这里插入图片描述
查看数据取值与数据分布(查看字符型数据,为大写字母O)
在这里插入图片描述
4)目标变量
预测目标为Survived
为整型数据,取值为0/1,训练集中无缺失值
0:未存活
1:存活
二分类问题。

查看数据关联性

数据量较少,依次查看特征与预测目标变量的关系
首先根据特征的类型(数值型和字符串型)进行特征分类
在这里插入图片描述

1)然后根据特征是否为类别型特征进行可视化查看:
可以看出Pclass(客舱类型)、Sex(性别)、SibSp (乘客在船上的兄弟姐妹/配偶数量)、 Parch(乘客在船上的父母/孩子数量)为类别型,根据求取均值来查看其相关性:
在这里插入图片描述
注意此处越接近0/1的,相关性越高,越接近0.5的,更倾向于随机分布。此处可以看到客舱为1的生存率更高,为3的生存率很低,客舱为2的对半。

在这里插入图片描述
可以看出女性的存活率明显高于男性
在这里插入图片描述
可以看到兄弟姐妹配偶数越多的,存活率越低

在这里插入图片描述
可以看到一定的分割,大于3的存活率极低。
2)查看数值型特征
在这里插入图片描述
可以看到年纪小的存活率较高,年纪最大的也存活下来。15-20岁的人数较多,且大部分未存活下来

在这里插入图片描述
3号舱的乘客人数较多,且大多数都没有存活下来
2/1号舱的人大多数活下来了
1号舱的存活比例较高
各等级舱的岁数比较存在一定差异
在这里插入图片描述
之前计算得到女性的存活率比较高,此处同样
Embarked=c的男性的存活率高过女性,存在一定的差异
在这里插入图片描述

特征工程

删除不必要特征

在这里插入图片描述

根据现有特征构建新特征

在这里插入图片描述
crosstab交叉表是用于统计分组频率的特殊透视表
在这里插入图片描述
将称谓进行分类替换
在这里插入图片描述
将字符串型转换为数字。此处也可以使用labelencoder
在这里插入图片描述
将姓名特征删除。注意测试集为何不删除id,因为id是后续需要提交的标志字段

转换类别型特征

在这里插入图片描述
此处也可使用独热算法或者labelencoder

缺失值填补

在这里插入图片描述
观察到船舱等级、性别与岁数分布的关系。见图。
决定采用中位数的方式来进行填补。
在这里插入图片描述
在这里插入图片描述

数据按范围划分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

合并多变量

在这里插入图片描述
在这里插入图片描述

构建全新特征

在这里插入图片描述
在这里插入图片描述

类别性特征缺失值处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

建模分析

库函数导入

在这里插入图片描述

数据划分

在这里插入图片描述

逻辑回归

在这里插入图片描述

分类模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值