python泰坦尼克号数据分析_Python数据分析|泰坦尼克逻辑回归

本文是Python数据分析的学习笔记,通过逻辑回归预测泰坦尼克号乘客的生存情况。首先导入numpy和pandas库,然后读取数据,进行数据预处理,包括填充缺失值、数据类型转换和one-hot编码。接着,使用逻辑回归模型进行训练并评估模型,最后预测新数据并保存结果。
摘要由CSDN通过智能技术生成

Python数据分析学习笔记,今天分享下利用Python进行逻辑回归,预测泰坦尼克号乘客生存情况。

#导入2个Python常用数据分析的库import numpy as npimport pandas as pd

#将数据源文件读取#注意Windows环境下,需要用r转义一下,不然读取不进来train = pd.read_csv(r"C:\\Users\\Administrator\\Desktop\\train.csv")test = pd.read_csv(r"C:\\Users\\Administrator\\Desktop\\test.csv")print('训练数据集:',train.shape,'测试数据集:',test.shape)

结果:表示训练数据集为891行,12列;测试数据集为418行,11列,测试集少了一列Survived即我们后续需要通过逻辑回归进行预测的。

#初步观察数据情况#Pclass客舱等级#SibSp同代直系亲属数#Parch不同代直系亲属数#Cabin客舱号#Embarked登船港口#Fare船票价格full.head()

结果:用head函数可以默认查看前5行数据,便于我们初步掌握数据概况。

#描述性数据统计full.describe()

结果:用describe函数可以进行描述性数据统计,即我们常见的均值、标准差、中位数等。

#查看每一列数据类型和数据总数#Survived、Age、Fare、Cabin、Embarked有缺失full.info()

结果:用info函数可以查看各列的数据个数,便于我们快速定位那些列有缺失值。

#数据预处理,缺失值填充#数值型数据用均值或中位数填充,如Age#应用fillna函数,用于填充缺失值full['Age'] = full['Age'].fillna(full['Age'].mean())full['Fare'] = full['Fare'].fillna(full['Fare'].mean())

#分类型数据用最常见类别进行填充#先通过value_counts函数,查询一下该列出现的各类型总数full['Embarked'].value_counts()

#看到量最多的是S,因此用它来填充确实项full['Embarked'] = full['Embarked'].fillna('

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值