python logistic回归_基于python的logistic回归建模预测

1、背景泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克号便遭厄运。1912年4月10日,泰坦尼克号从英国南安普敦(Southampton)出发,途经法国瑟堡-奥克特维尔(Cherbourg-Octeville)以及爱尔兰昆士敦(Queenstown),驶向美国纽约。1912年4月14日23时40分左右,泰坦尼克号与一座冰山...
摘要由CSDN通过智能技术生成

bfa1a12d378a0727382e177d0cd63f02.png

1、背景

泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉 。然而不幸的是,在它的处女航中,泰坦尼克号便遭厄运。1912年4月10日,泰坦尼克号从英国南安普敦(Southampton)出发,途经法国瑟堡-奥克特维尔(Cherbourg-Octeville)以及爱尔兰昆士敦(Queenstown),驶向美国纽约。1912年4月14日23时40分左右,泰坦尼克号与一座冰山相撞,造成右舷船艏至船中部破裂,五间水密舱进水。次日凌晨2时20分左右,泰坦尼克船体断裂成两截后沉入大西洋底3700米处。2224名船员及乘客中,逾1500人丧生。这么多人遇难的原因之一是没有准备足够的救生艇。

2、.提出问题

研究的问题:什么样的人在泰坦尼克号中更容易存活?

3.理解数据

3.1采集数据

从Kaggle泰坦尼克号项目页面下载数据:Titanic: Machine Learning from Disaster​www.kaggle.com

3.2查看官网上对变量的解释:

9cdaf22a781bcf98f3882063f157e51c.png

d64167646c17d7a7682ade331c606e1f.png

这里有个大致了解即可。

3.3理清分析思路和需求

【a】提出问题

【b】理解数据:导入数据—理解数据—数据集信息

【c】数据清洗:数据预处理(删除重复值、填充缺失值)— 特征提取 — 特征选择

【d】构建模型

【e】提交预测

3.4数据理解、准备、数据清洗

3.4.1导入数据查看数据集大小

d153867c0349f7254d941d21cfdf816f.png

c12aec9a4d77f5a814bc5d461502cc4e.png

train.csv比test.csv多了一列Survived,即是否生存,这正是我们要解决的问题:本文即是通过对train.csv的机器学习,来预测test.csv的Survived水平。因此,后面会基于train.csv提取特征并结合其Survived数据来预测,则test.csv的数据特征在预测的时候一定要与train.cs的特征数据一致。只有test.csv的特征与训练数据train.csv的特征一致时才能直接应用训练模型进行预测,这样才保证test.csv的特征数据可直接带入进行预测。所以要将二者合并起来一起清洗

3.4.2数据集信息

36a6a96d8f3e17183f049f048cf43e9a.png

c77c93fa423a08dade1dfed86f195f04.png

结论:1309行,12列,与前两个数据集的行之和、列数相符,说明合并成功。

3.4.3删除重复值

11d6431b8841c14067893621a70554fa.png

3.4.4查看数据集信息和缺失值情况

b2a7f15be99ec2b119799399746fa34b.png

eeaf0593bfba56b80450aaa1be01294a.png

3.4.5理解数据缺失值

在前面理解数据阶段,我们发现数据总共有1309行。

数据类型列:年龄(Age)、船票价格(Fare)里面有缺失数据;而生成情况(Survived)这一列是标签,要预测的数据标签是未知的,不需要处理这一列

字符串列:船舱号(Cabin)和登船港口(Embarked)里面有缺失数据。

这为我们下一步数据清洗指明了方向,只有知道哪些字段缺失数据,我们才能有针对性的处理。很多机器学习算法为了训练模型,要求所传入的特征中不能有空值。

3.4.6处理缺失值

常见方法主要是

如果是数值类型,用平均值取代;如果是分类数据,用最常见的类别取代;使用模型预测缺失值,例如:KNN。

(a)首先我们对数值型字段进行查看和处理,步骤如下:

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值