泰坦尼克号—数据分析（单因素、多因素分析）

LiJiaqian.

已于 2024-02-26 19:37:36 修改

阅读量9.7k

点赞数 15

分类专栏：数据可视化数据分析 python 文章标签： python数据分析 matplotlib可视化 pandas jupyter notebook 因素分析

于 2019-05-13 18:37:50 首次发布

本文链接：https://blog.csdn.net/jessie0615/article/details/90173259

版权

一、提出问题：
获救与其他因素（性别、年龄、舱位）的关系大小

二、整理数据：
数据来源：经典的titanic数据分析，大多数人都会从这个案例做教学或者做练习，数据可从kaggle（https://www.kaggle.com/c/titanic/data）上一个机器学习的数据集获得，kaggle有三个表格，我们现在用train这个表。

工具：jupyter notebook，可以更好的展示分析思维和过程。

导入python的数据分析库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline  #可视化在页面展示

导入数据

df = pd.read_csv(r'C:\Users\jessie\train.csv',engine='python')

查看数据
行列数

df.shape
#输出：(891, 12)

查看数据信息

df.info()

#输出：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

如果只想单纯查看数据的数据类型，可以用dtypes

df.dtypes
#输出：
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

查看列名

df.columns
#输出
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

做到这里我们对泰坦尼克号的数据有了基本了解：
1.数据一共有891行，12列；
2.列【Age】、【Cabin】、【Embarked】有缺失值；
3.有些数据需要修改数据类型，如【PassengerI