这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。
代码都是jupyter形式
数据重构(下)
import numpy as np
import pandas as pd
6.1 数据聚合与运算
导入上节保存的数据
text = pd.read_csv(r"C:\Users\win 10\Desktop\result.csv")
6.1.1 任务一:了解GroupBy机制
6.1.2 任务二:计算泰坦尼克号男性与女性的平均票价
means = text["Fare"].groupby(text["Sex"]).mean()
means
6.1.3 任务三:统计泰坦尼克号中男女的存活人数
survived_sex = text["Survived"].groupby(text["Sex"]).sum()
survived_sex
6.1.4 任务四:计算客舱不同等级的存活人数
survived_pclass = text["Survived"].groupby(text["Pclass"]).sum()
survived_pclass
6.1.5 任务五:统计在不同等级的票中的不同年龄的船票花费的平均值
text.groupby(['Pclass','Age'])['Fare'].mean().head()
6.1.6 任务六:将任务二和任务三的数据合并,并保存到sex_fare_survived.csv
result = pd.merge(means,survived_sex,on='Sex')
result
result.to_csv(r"C:\Users\win 10\Desktop\sex_fare_survived.csv")
6.1.7 任务七:得出不同年龄的总的存活人数,然后找出存活人数的 最高的年龄,最后计算存活人数最高的存活率(存活人数/总人数)
survived_age = text['Survived'].groupby(text['Age']).sum()
survived_age
survived_age_max=survived_age[survived_age==survived_age.max()]
survived_age_max
_sum = text["Survived"].sum()
_sum
print("总人数:{}".format(_sum))
print("存活人数最高年龄的人数:{}".format(survived_age_max))
print("存活人数最高年龄的人数的存活率:{}".format(survived_age.max()/_sum))