import numpy
import pandas
from matplotlib import pyplot
class Titanic:
"""
Titanic.csv 根目录的泰坦尼克号的详情文档
PassengerId 乘客的唯一id
Survived 1:获救 0:死亡
Pclass 座舱等级 3最好
Name 姓名
Sex 性别
Age 年龄
SibSp 船上有没有兄弟姐妹
Parch 穿上有没有父母等直系亲属
Ticket 船票
Fare 花费
Cabin 座舱号
Embarked 从那个港口登船
任务:
1 统计存活率多少
2 那个年龄段存活率最高
3 女性存活率是否高于男性
4 船上是否存在明显的贫富差距
5 头等仓的存活率是否高于经济舱
6 有亲属在船上的乘客比率 有亲属是否影响存活率
7 从那个港口是否影响存活率
8 不同年龄段女性的获救率
"""
def __init__(self):
self.df_titanic = pandas.read_csv('Titanic.csv')
self.columns = self.df_titanic.columns
self.index = self.df_titanic.index
self.sum_ = self.df_titanic.count()[0]
def _rate_survival(self,dataFarm):
cuihuo = dataFarm['Survived'].value_counts()[1]
zong_shu = dataFarm.count()[0]
return cuihuo/zong_shu
# 1 统计存活率多少
def survival_rate(self):
return self._rate_survival(self.df_titanic)
# return survived
# return self.total
# 2 那个年龄段存活率最高
def max_survival_age_bracket(self):
avg = self.df_titanic['Age'].mean()
泰坦尼克号浅分析
最新推荐文章于 2023-03-14 12:13:56 发布