python xgb模型预测_Python--模型预测分析

最新推荐文章于 2024-08-20 09:50:01 发布

军机大臣上行走

最新推荐文章于 2024-08-20 09:50:01 发布

阅读量1.7k

点赞数

文章标签： python xgb模型预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42299391/article/details/112336574

版权

本文通过探索性数据分析、特征工程处理泰坦尼克号数据集，利用Python进行数据清洗、缺失值填充、分类数据转换，并使用XGB模型预测乘客生存率，最终模型正确率达到79.8%。

摘要由CSDN通过智能技术生成

项目背景

电影《泰坦尼克号》改编自一个真实故事。1912年4月15日，这艘号称“永不沉没”的泰坦尼克号在首航期间，撞上冰山后沉没，船上的2224名乘客和机组人员，其中只有772人存活下来，生还率只有32%。这一耸人听闻的悲剧震撼了国际社会!

2.提出问题

泰坦尼克号生存率预测：具有什么特征的人在泰坦尼克号中更容易存活？

3. 采集数据：

数据来源于kaggle网站Titanic项目: kaggle.com/c/titanic

4.特征工程

Dima：02 手把手教你做特征工程zhuanlan.zhihu.com

特征工程到底是什么？www.zhihu.com

特征工程（feature engineering）是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。坊间有一个大家公认的看法，“数据和特征决定了数据挖掘项目的上限，而算法只是尽可能地逼近这个上限”。特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理，特征选择，特征降维等。

经典特征工程包括探索性数据分析、特征理解、特征增强、特征构建和特征选择5个步骤，为进一步解释数据并进行预测性分析做准备。

4.1 探索性数据分析

探索性数据分析（EDA，exploratory data analysis）对数据集进行基本的描述性统计（大小、形状），并进行可视化操作，以便更好地理解数据的性质。

4.1.1 导入数据

#1导入包&数据集

#2 查看数据集差异

train.csv比test.csv多了一列Survived，即是否生存，这正是我们要解决的问题：本文即是通过对train.csv的机器学习，来预测test.csv的Survived水平。test.csv的特征与训练数据train.csv的特征一致时才能直接应用训练模型进行预测，所以要将二者合并起来一起清洗，这样保证了后面test.csv的特征数据可直接带入进行预测。

#合并训练集和测试集&查看合并结果

4.1.2 描述性统计

函数.head()，默认查看前五行数据；

最低0.47元/天解锁文章

军机大臣上行走

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。