python泰坦尼克号数据分析_Python数据分析｜泰坦尼克逻辑回归

最新推荐文章于 2022-05-28 21:16:47 发布

weixin_39753674

最新推荐文章于 2022-05-28 21:16:47 发布

阅读量633

点赞数

文章标签： python泰坦尼克号数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39753674/article/details/112828883

版权

本文是Python数据分析的学习笔记，通过逻辑回归预测泰坦尼克号乘客的生存情况。首先导入numpy和pandas库，然后读取数据，进行数据预处理，包括填充缺失值、数据类型转换和one-hot编码。接着，使用逻辑回归模型进行训练并评估模型，最后预测新数据并保存结果。

摘要由CSDN通过智能技术生成

Python数据分析学习笔记，今天分享下利用Python进行逻辑回归，预测泰坦尼克号乘客生存情况。

#导入2个Python常用数据分析的库import numpy as npimport pandas as pd

#将数据源文件读取#注意Windows环境下，需要用r转义一下，不然读取不进来train = pd.read_csv(r"C:\\Users\\Administrator\\Desktop\\train.csv")test = pd.read_csv(r"C:\\Users\\Administrator\\Desktop\\test.csv")print('训练数据集：',train.shape,'测试数据集：',test.shape)

结果：表示训练数据集为891行，12列；测试数据集为418行，11列，测试集少了一列Survived即我们后续需要通过逻辑回归进行预测的。

#初步观察数据情况#Pclass客舱等级#SibSp同代直系亲属数#Parch不同代直系亲属数#Cabin客舱号#Embarked登船港口#Fare船票价格full.head()

结果：用head函数可以默认查看前5行数据，便于我们初步掌握数据概况。

#描述性数据统计full.describe()

结果：用describe函数可以进行描述性数据统计，即我们常见的均值、标准差、中位数等。

#查看每一列数据类型和数据总数#Survived、Age、Fare、Cabin、Embarked有缺失full.info()

结果：用info函数可以查看各列的数据个数，便于我们快速定位那些列有缺失值。

#数据预处理，缺失值填充#数值型数据用均值或中位数填充，如Age#应用fillna函数，用于填充缺失值full['Age'] = full['Age'].fillna(full['Age'].mean())full['Fare'] = full['Fare'].fillna(full['Fare'].mean())

#分类型数据用最常见类别进行填充#先通过value_counts函数，查询一下该列出现的各类型总数full['Embarked'].value_counts()

#看到量最多的是S，因此用它来填充确实项full['Embarked'] = full['Embarked'].fillna('

最低0.47元/天解锁文章

weixin_39753674

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python泰坦尼克号数据分析_Python数据分析｜泰坦尼克逻辑回归

Python数据分析学习笔记，今天分享下利用Python进行逻辑回归，预测泰坦尼克号乘客生存情况。#导入2个Python常用数据分析的库import numpy as npimport pandas as pd#将数据源文件读取#注意Windows环境下，需要用r转义一下，不然读取不进来train = pd.read_csv(r"C:\\Users\\Administrator\\Desktop\...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。