python xgb模型 预测_Python--模型预测分析

本文通过探索性数据分析、特征工程处理泰坦尼克号数据集,利用Python进行数据清洗、缺失值填充、分类数据转换,并使用XGB模型预测乘客生存率,最终模型正确率达到79.8%。
摘要由CSDN通过智能技术生成
  1. 项目背景

电影《泰坦尼克号》改编自一个真实故事。1912年4月15日,这艘号称“永不沉没”的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人存活下来,生还率只有32%。 这一耸人听闻的悲剧震撼了国际社会!

2.提出问题

泰坦尼克号生存率预测 :具有什么特征的人在泰坦尼克号中更容易存活?

3. 采集数据:

数据来源于kaggle网站Titanic项目: kaggle.com/c/titanic

4.特征工程

Dima:02 手把手教你做特征工程​zhuanlan.zhihu.com
特征工程到底是什么?​www.zhihu.com
3474984bac42035499b520c2e6a3985c.png

特征工程(feature engineering)是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。坊间有一个大家公认的看法,“数据和特征决定了数据挖掘项目的上限,而算法只是尽可能地逼近这个上限”。特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,特征降维等。

1dcf9942c66792c6bcd9e51c5575be70.png

经典特征工程包括探索性数据分析、特征理解、特征增强、特征构建和特征选择5个步骤,为进一步解释数据并进行预测性分析做准备。

dfbdd5ef29c18ba6d6c64e3abae33475.png

4.1 探索性数据分析

探索性数据分析(EDA,exploratory data analysis)对数据集进行基本的描述性统计(大小、形状),并进行可视化操作,以便更好地理解数据的性质。

4.1.1 导入数据

#1导入包&数据集

82cee4d83cbb0f62adb5bccf027a0391.png

#2 查看数据集差异

c4c7813ada57245e5af6dd62116858db.png

train.csv比test.csv多了一列Survived,即是否生存,这正是我们要解决的问题:本文即是通过对train.csv的机器学习,来预测test.csv的Survived水平。test.csv的特征与训练数据train.csv的特征一致时才能直接应用训练模型进行预测,所以要将二者合并起来一起清洗,这样保证了后面test.csv的特征数据可直接带入进行预测。

#合并训练集和测试集&查看合并结果

c544547288463da53c8df3659e203d2c.png

4.1.2 描述性统计

函数.head(),默认查看 前五行数据;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值