Python机器学习实例-逻辑回归模型预测泰坦尼克号生还

最新推荐文章于 2024-05-01 23:44:09 发布

犇犇本犇

最新推荐文章于 2024-05-01 23:44:09 发布

阅读量595

点赞数 4

文章标签：机器学习 python 逻辑回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68297669/article/details/133656051

版权

本学期在学习人工智能与机器学习，恰逢学到逻辑回归并演示书中的示例代码并独立解决一些入门级基础知识。以下为本文的叙述逻辑关系。

（1）对相关问题背景、数据集等进行描述。

（2）简要介绍逻辑回归算法的基本原理。

（3）采用Python进行编程，对数据集完成数据分割，根据训练数据进行机器学习（对主要编程语句需进行注释）。

（4）根据测试样本数据集，进行模型评价；对相关数据进行图、表可视化。

一。数据集的来源与描述

数据集来源。

泰坦尼克号乘客的生还预测的训练数据集又Kaggle竞赛的网站获得（http://www.kaggle.com/c/titanic/data）以下，我将使用Panda库输入工具read_csv来引用。

问题背景。

泰坦尼克号乘客的生还预测问题是Kaggle数据科学竞赛入门级竞赛之一。通过运用逻辑回归算法，根据乘客的相关特定信息，如：年龄,性别，船舱等级等等预测其是否会生还。

通过建立特定数学模型，检验并预测乘客的生还问题。

二、机器学习算法及原理

本文选择逻辑回归算法。通过逻辑回归算法我们可以特定的解决分类问题，但其中回归与分类又是有所区别的。回归预测的目标变量取值是连续的，可用一条直线拟合；而分类所预测的目标变量是类别型变量，其取值是离散的。

他本身是一个二分类器，其基本思想是“拆解法”，即将多分类任务拆分为若干个二分类任务求解。逻辑回归主要应用于解决分类问题，并特定要求为离散型且并不要求特征与目标变量呈线性关系。

三、机器学习的Python编程

(1)

import pandas as pd

# 从Panda库里面用read_csv读入数据库

data = pd.read_csv('E:/WQY Python/07LogisticRegression/train.csv')

# 数据文件存在目录E:/WQY Python/07LogisticRegression/train.csv下

(2)

data.info()

#对训练集进行数据分析

(3)

data.describe()

#运用这条语句进行数据的描述统计分析

（4）

import matplotlib.pyplot as plt

#get_ipython().magic(u'matplotlib inline')

#引用matplotlib.pyplot库模型来判断性别生还情况

Survived_m = data.Survived[data.Sex == 'male'].value_counts()

#所有获救的人是男性（male）的人数

Survived_f = data.Survived[data.Sex == 'female'].value_counts()

#所有获救的人是女性（female）的人数

df = pd.DataFrame({u'male':Survived_m, u'female':Survived_f})

#显示上述读取到的男性女性信息，以行和列形式来表示，行表示男，女；列表示是否生还

df.plot(kind = 'bar', stacked = True)

# df.plot画图函数，类型（kind）为bar竖直条形图，stacked为true数据堆叠起来

plt.title(u'mf')

#标题为u'mf'

plt.xlabel(u'aa')

#x轴标为u'aa'

plt.ylabel(u'sss')

#y轴标为u'sss'

（5）

Survived_0 = data.Embarked[data.Survived == 0].value_counts()

#登船港口的死亡情况

Survived_1 = data.Embarked[data.Survived == 1].value_counts()

#登船港口的存活情况

df = pd.DataFrame({u'aa':Survived_1,u'ssss':Survived_0})

#显示上述读取到的男性女性信息，以行和列形式来表示，aa表示活下来，ssss表示失事

df.plot(kind = 'bar', stacked = True)

# df.plot画图函数，类型（kind）为bar竖直条形图，stacked为true数据堆叠起来

plt.title(u'ssssss')

#条型图标题ssssss

plt.xlabel(u'ssssss')

#x轴标写ssssss

plt.ylabel(u'cccccc')

#y轴标写cccccc

plt.show()

（6）数据预处理，将无关的特征删除，填充缺失项，编码转换数据缩放。

# 删除姓名、ID、船票、客舱等无关信息，axis=0 删除行，=1 删除列

data.drop(['Name','PassengerId','Ticket','Cabin'], axis=1, inplace=True)

# 用平均值或众数填充缺失数据

data['Age'] = data['Age'].fillna(data['Age'].mean())

data['Fare'] = data['Fare'].fillna(data['Fare'].mean())

data['Embarked'] = data['Embarked'].fillna(data['Embarked'].value_counts().index[0])

# 将性别与登船港口进行独热编码

dumm = pd.get_dummies(data[['Sex','Embarked']], drop_first=True)

data = pd.concat([data, dumm], axis=1)

data.drop(['Sex','Embarked'], axis=1, inplace=True)

# 数据缩放

data['Age']=(data['Age']-data['Age'].min())/(data['Age'].max()-data['Age'].min())

data['Fare']=(data['Fare']-data['Fare'].min())/( data['Fare'].max()-data['Fare'].min())

（7）划分训练集和测试集

from sklearn.model_selection import train_test_split

X = data.drop('Survived', axis=1)

#X为存活下删除列后数据

y = data.Survived

#y为存活数据

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

#预留30%数据用于评价模型

（8）模型构建及训练

from sklearn.linear_model import LogisticRegression

LR = LogisticRegression()

#构建训练模型

LR.fit(X_train, y_train)

print('训练集准确率：\n', LR.score(X_train, y_train))

print('验证集准确率：\n', LR.score(X_test, y_test))

#test模型准确率

四、模型的评价和相关数据的可视化

1.评价

逻辑回归模型关于泰坦尼克号乘客生还能够达到较好的预测效果

2.图示化测量结果

（1）性别预测存活率

（2）登船港口预测

（3）数据

（4）测试结果

（5）环境：anaconda3安装，Spider（Python3.8）下运行测试结果图

五.编者能力有限，仅供参考，欢迎指正。

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python机器学习实例-逻辑回归模型预测泰坦尼克号生还

Kaggie机械学习经典泰坦尼克号乘客的生还预测
复制链接

扫一扫

犇犇本犇 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

130万+: 周排名

11万+: 总排名

4175: 访问

: 等级

119: 积分

54: 粉丝

67: 获赞

1: 评论

82: 收藏

私信

关注

热门文章

最新评论

面向对象python程序设计
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
自动控制原理项目设计飞机垂直速度控制系统设计
CSDN-Ada助手: 非常欢迎您的第二篇博客！您对飞机垂直速度控制系统的设计进行了详细的介绍，这对于现代自动飞行控制系统来说是非常重要的模式。您的文章提到了纵向轨迹角或航迹倾角的控制，这是一个很有意思的扩展知识点。另外，您可以考虑进一步探讨飞机垂直速度控制系统在不同气象条件下的应用，以及如何优化系统以实现更加精确的控制。再次感谢您的分享，期待您的持续创作！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Python机器学习实例-逻辑回归模型预测泰坦尼克号生还
CSDN-Ada助手: 恭喜您开始博客创作！标题很吸引人，逻辑回归模型在机器学习中应用广泛，而预测泰坦尼克号生还这个题材也很有趣。希望在您的博客中能够详细介绍逻辑回归模型的原理和应用，并结合实例展示如何使用Python进行预测。同时，如果您能进一步探讨其他机器学习算法在泰坦尼克号生还预测中的表现，将会给读者提供更多选择和思考的角度。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

犇犇本犇 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。