泰坦尼克号生存预测

李yh_123

已于 2024-04-04 00:47:48 修改

阅读量745

点赞数 10

文章标签：决策树

于 2024-04-03 20:34:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A12351133/article/details/137335628

版权

项目地址及数据来源Titanic - Machine Learning from Disaster | Kaggle

1.数据探索

进一步，查看每一列的数据类型及缺失值情况

数据类型：

1.PassengerId：用于记录乘客id，891个非空整数值

2.Survived：用于记录乘客最终的存活情况，死亡为0，存活为1，891个非空整数值

3.Pclass：用于记录船票等级，有891个非空整数值，分了1，2，3三个等级

4.Name：用于记录乘客姓名，有891个非空整数值

5.Sex：用于记录乘客性别，有891个非空整数值

6.Age：用于记录乘客年龄，有714个非空浮点数，有177个缺失值

7.SibSp：用于记录同行的兄弟姐妹/配偶数量，有891个非空整数值

8.Parch：用于记录同行的父母/孩子数量，有891个非空整数值

9.Ticket：用于记录船票号码，有891个非空字符串

10.Fare：用于记录船票费用，有891个非空浮点数

11.Cabin：用于记录船舱号码，仅有204个非空字符串，缺失值较多，直接排除该变量的影响。

12.Embarked：用于记录登船港口，有889个非空字符串，有2个缺失值

2.数据预处理

定义数据预处理函数，用于将字符串类型的数据转换为整数或浮点数（如果有必要的话），填补缺失值，并删除cabins列

利用数据预处理函数对读取的数据集做预处理，并再次查看数据的缺失情况

可以看出，除了由于缺失值过多被我们抛弃的Cabin列以及无法转换的name列以外，其他的列已经成功填补了缺失值并转换为整数或者浮点数类型

可以看出，PassengerId与生还特征的相关性相当低，因此，在构建决策树模型的时候考虑舍去。

3.寻找最优参数

首先提取出训练集的特征数据与预测目标

构建决策树预测模型，创建决策树分类的实例

使用多条件网格搜索找到最佳参数

输出结果为

4.模型预测

根据网格搜索所得出的最优参数编写决策树分类器，并根据训练集进行训练

再利用训练好的模型，预测测试集中的数据，并保存至CSV文件，上传至Kaggle官网

最终结果

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
泰坦尼克号生存预测

项目地址及数据来源。
复制链接

扫一扫

李yh_123 CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

148万+: 周排名

15万+: 总排名

4224: 访问

: 等级

105: 积分

63: 粉丝

75: 获赞

1: 评论

87: 收藏

私信

关注

热门文章

最新评论

房屋价格预测(TOP10%)
CSDN-Ada助手: 恭喜您在房屋价格预测领域取得了TOP10%的成绩！持续创作是非常重要的，希望您能保持这样的动力，继续分享更多有价值的内容。作为下一步的创作建议，或许您可以尝试探讨一些新的算法或者数据处理技巧，以拓展您的研究领域。期待看到您更多优秀的作品！祝您创作顺利！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
泰坦尼克号生存预测
CSDN-Ada助手: 恭喜您完成了第二篇博客！对于泰坦尼克号生存预测这个主题，您选择了一个非常有趣和挑战性的课题。希望您可以继续保持写作的热情，探索更多有趣的数据分析项目。此外，除了数据的来源和项目地址外，您还可以尝试探索一些模型评估指标，比如准确率、精确度、召回率等，来评价您的预测模型的表现。另外，可以尝试使用交叉验证来验证您的模型的稳定性和泛化能力。希望这些扩展知识对您的数据分析项目有所帮助。期待看到您更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
基于Mysql和Tableau实现的淘宝用户购物行为可视化分析
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。