Python分析泰坦尼克号数据集

通过Python分析泰坦尼克号数据集,发现总体死亡率高于生存率,船舱等级、性别、年龄和票价对生存有显著影响。1等舱乘客、女性、儿童和票价较高的乘客存活率较高,3人左右同行的生存几率相对较高。
摘要由CSDN通过智能技术生成

泰坦尼克号数据分析

分析目的:

分析影响乘客生存的因素

#导入相应的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

导入数据

网上有很多共享的数据,直接下载就好了

train = pd.read_csv(‘train.csv’,encoding = ‘utf-8’)

查看数据前5 行

train.head()

数据集共有12个属性

PassengerId :乘客ID
Survived :存活(0代表死亡,1代表存活)
Pclass : 船舱等级(1为最高等级)
Name : 乘客姓名
Sex : 性别
Age :年龄
SibSp :同行的兄弟姐妹或朋友的数量
Parch :同行的父母或子女的数量
Ticket :船票号
Fare : 船票价格
Cabin :客舱号码
Embarked :登船港口

数值型数据描述性分析

train.describe()

数据预处理

缺失值处理

train.isnull().sum()
train.Age = train.Age.fillna(train.Age.mean())
train.Embarked = train.Embarked.fillna(method = ‘ffill’)
train.isnull().sum()

重复值处理

train[train.duplicated(subset = [‘Name’,‘Sex’])] #数据集中没有重复数据

合并SibSp与Parch属性

train[‘Sib_Par’] = train[‘SibSp’] + train[‘Parch’]

异常值处理

train.Fare.plot(kind = ‘box’)
train[train.Fare>200]
#train[train.Fare>200].count()
train[train.Fare>500]
train.loc[train.Fare > 500 , ‘Fare’] = 227
#查看票价为0的数据
train[(train[‘Fare’] == 0)]
train[(train[‘Pclass’]== 1) & (train[‘Fare’] == 0)]
train[(train[‘Pclass’]== 2) & (train[‘Fare’] == 0)]
train[(train[‘Pclass’]== 3) & (train[‘Fare’] == 0)]

删除无用的属性

train.drop([‘PassengerId’,‘Name’,‘Ticket’,‘Cabin’,‘SibSp’,‘Parch’]

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值