动手学数据分析第二章：第三节数据重构2

最新推荐文章于 2024-07-12 17:26:41 发布

L1315382539

最新推荐文章于 2024-07-12 17:26:41 发布

阅读量168

点赞数

文章标签：数据分析

本文链接：https://blog.csdn.net/L1315382539/article/details/108190083

版权

自学专栏收录该内容

20 篇文章 0 订阅

订阅专栏

开始之前，导入numpy、pandas包和数据

# 导入基本库
import numpy as np
import pandas as pd

# 载入上一个任务保存的文件:result.csv，并查看这个文件
text = pd.read_csv('result.csv')
text.head()

	Unnamed: 0	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1.0	A/5 21171	7.2500	NaN	S
1	1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1.0	PC 17599	71.2833	C85	C
2	2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0.0	STON/O2. 3101282	7.9250	NaN	S
3	3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1.0	113803	53.1000	C123	S
4	4	5	0	3	Allen, Mr. William Henry	male	35.0	0.0	373450	8.0500	NaN	S

2 第二章：数据重构

第一部分：数据聚合与运算

2.6 数据运用

2.6.1 任务一：通过教材《Python for Data Analysis》P303、Google or anything来学习了解GroupBy机制

groupby：分割，应用和组合。groupby经常只需一行代码，就可以计算每组的和，均值，计数，最小值以及其他累计值。它返回一个DataFrameGroupby对象，可以将它看成是一个特殊的DataFrame对象，里面隐藏着若干组数据。

2.4.2：任务二：计算泰坦尼克号男性与女性的平均票价

df  = text['Fare'].groupby(text['Sex'])
means = df.mean()
means

Sex
female    44.479818
male      25.523893
Name: Fare, dtype: float64

在了解GroupBy机制之后，运用这个机制完成一系列的操作，来达到我们的目的。

下面通过几个任务来熟悉GroupBy机制。

2.4.3：任务三：统计泰坦尼克号中男女的存活人数

survived_sex = text['Survived'].groupby(text['Sex']).sum()
survived_sex.head()

Sex
female    233
male      109
Name: Survived, dtype: int64

2.4.4：任务四：计算客舱不同等级的存活人数

survived_pclass =text['Survived'].groupby(text['Pclass'])
survived_pclass.sum()

Pclass
1    136
2     87
3    119
Name: Survived, dtype: int64

【提示：】表中的存活那一栏，可以发现如果还活着记为1，死亡记为0

【思考】从数据分析的角度，上面的统计结果可以得出那些结论

女性平均票价远高于男性

而女性存活人数也远高于男性，233:109

存活与客舱等级有一定关系，可见客舱2存活人数较少

【思考】从任务二到任务四中，这些运算可以通过agg()函数来同时计算。并且可以使用rename函数修改列名。你可以按照提示写出这个过程吗？

agg()函数是聚合函数，

DataFrame.agg（func，axis = 0，* args，** kwargs ）

是实现某种统计功能的函数，若要不同列用求不同统计量，则用字典{‘行名/列名’，‘函数名’}指定。

#例子：
text.groupby('Sex').agg({'Survived': 'sum', 'Fare': 'mean'}).rename(columns=
                            {'Survived': 'sum_sex', 'Fare': 'mean_fare'})

	sum_sex	mean_fare
Sex
female	233	44.479818
male	109	25.523893

type(text['Pclass'][0])

numpy.int64

2.4.5：任务五：统计在不同等级的票中的不同年龄的船票花费的平均值

text.groupby(['Pclass','Age'])['Fare'].mean().head()

Pclass  Age  
1       0.92     151.5500
        2.00     151.5500
        4.00      81.8583
        11.00    120.0000
        14.00    120.0000
Name: Fare, dtype: float64

2.4.6：任务六：将任务二和任务三的数据合并，并保存到sex_fare_survived.csv

result = pd.merge(means,survived_sex,on='Sex')
result

	Fare	Survived
Sex
female	44.479818	233
male	25.523893	109

result.to_csv('sex_fare_survived.csv')

2.4.7：任务七：得出不同年龄的总的存活人数，然后找出存活人数的最高的年龄，最后计算存活人数最高的存活率（存活人数/总人数）

#不同年龄的存活人数
survived_age = text['Survived'].groupby(text['Age']).sum()
survived_age.head()

Age
0.42    1
0.67    1
0.75    2
0.83    2
0.92    1
Name: Survived, dtype: int64

#找出最大值的年龄段
survived_age[survived_age.values==survived_age.max()]

Age
24.0    15
Name: Survived, dtype: int64

_sum = text['Survived'].sum()
print(_sum)

#首先计算总人数
_sum = text['Survived'].sum()

print("sum of person:"+str(_sum))

precetn =survived_age.max()/_sum

print("最大存活率："+str(precetn))

sum of person:342
最大存活率：0.043859649122807015

L1315382539

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学数据分析第二章：第三节数据重构2

开始之前，导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pd# 载入上一个任务保存的文件:result.csv，并查看这个文件text = pd.read_csv('result.csv')text.head() Unnamed: 0 PassengerId Survived Pclass Name Sex
复制链接

扫一扫