《Pandas数据分析》（四）——数据重构2

最新推荐文章于 2024-08-15 10:04:58 发布

爱读Paper的Toby

最新推荐文章于 2024-08-15 10:04:58 发布

阅读量213

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/qq_41430142/article/details/119836166

版权

数据分析专栏收录该内容

7 篇文章 4 订阅

订阅专栏

本文介绍了Pandas在数据分析中的应用，重点讲解了数据清洗和重构的过程。通过实例展示了如何使用GroupBy机制进行数据分组、聚合运算，如计算泰坦尼克号男女的平均票价、存活人数等。还探讨了如何通过agg()函数进行多指标计算，并对数据进行合并、筛选，以获取不同等级、年龄的存活人数和费用信息。最后，进行了存活率的计算和数据的保存。

摘要由CSDN通过智能技术生成

复习： 在前面我们已经学习了Pandas基础，第二章我们开始进入数据分析的业务部分，在第二章第一节的内容中，我们学习了数据的清洗，这一部分十分重要，只有数据变得相对干净，我们之后对数据的分析才可以更有力。而这一节，我们要做的是数据重构，数据重构依旧属于数据理解（准备）的范围。

开始之前，导入numpy、pandas包和数据

# 导入基本库
import pandas as pd
import numpy as np

# 载入上一个任务保存的文件中:result.csv，并查看这个文件
df=pd.read_csv('result.csv')
df.head()

2 第二章：数据重构

第一部分：数据聚合与运算

2.6 数据运用

2.6.1 任务一：了解GroupBy机制

分组统计 - groupby功能

① 根据某些条件将数据拆分成组

② 对每个组独立应用函数

③ 将结果合并到一个数据结构中

在日常的数据分析中，经常需要将数据根据某个（多个）字段划分为不同的群体（group）进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好等。在Pandas中，上述的数据处理操作主要运用groupby完成

2.4.2：任务二：计算泰坦尼克号男性与女性的平均票价

# 写入代码
data2=df['Fare'].groupby(df['Sex']).mean()
print(data2)

在了解GroupBy机制之后，运用这个机制完成一系列的操作，来达到我们的目的。

下面通过几个任务来熟悉GroupBy机制。

2.4.3：任务三：统计泰坦尼克号中男女的存活人数

# 写入代码
# 方法一
# data3=df['Survived'].groupby(df['Sex'])
# data3.head()
# data3.value_counts()
# 方法二
data3=df['Survived'].groupby(df['Sex']).sum()
data3

2.4.4：任务四：计算客舱不同等级的存活人数

# 写入代码
data=df['Survived'].groupby(df['Pclass'])
data.value_counts()

【提示：】表中的存活那一栏，可以发现如果还活着记为1，死亡记为0

【思考】从任务二到任务三中，这些运算可以通过agg()函数来同时计算。并且可以使用rename函数修改列名。你可以按照提示写出这个过程吗？

agg 聚合操作

聚合操作是groupby后非常常见的操作，会写SQL的朋友对此应该是非常熟悉了。聚合操作可以用来求和、均值、最大值、最小值等，下面的表格列出了Pandas中常见的聚合操作。

#思考心得
df.groupby('Sex').agg({'Fare': 'mean', 'Pclass': 'count'}).rename(columns=
                            {'Fare': 'mean_fare', 'Pclass': 'count_pclass'})

2.4.5：任务五：统计在不同等级的票中的不同年龄的船票花费的平均值.

先根据等级划分、再根据年龄划分

# 写入代码
data=df.groupby(['Pclass','Age'])
data['Fare'].mean().head(20)
# data.head(20)

2.4.6：任务六：将任务二和任务三的数据合并，并保存到sex_fare_survived.csv

# 写入代码
result=pd.merge(data2,data3,on='Sex')
result.head()

2.4.7：任务七：得出不同年龄的总的存活人数，然后找出存活人数的最高的年龄，最后计算存活人数最高的存活率（存活人数/总人数）

# 写入代码
d1=df['Survived'].groupby(df['Age']).sum()
d1.head(10)

# 写入代码
maxAge=d1[d1.values==d1.max()]
maxAge

# 写入代码
# 计算一共有多少人存活
_sum=df[df['Survived']==1].shape[0]
# 在年龄分组中找到存活数最大的
sum=d1.max()
# 计算存活率
print('存活率：',sum/_sum)

爱读Paper的Toby

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Pandas数据分析》（四）——数据重构2

复习：在前面我们已经学习了Pandas基础，第二章我们开始进入数据分析的业务部分，在第二章第一节的内容中，我们学习了数据的清洗，这一部分十分重要，只有数据变得相对干净，我们之后对数据的分析才可以更有力。而这一节，我们要做的是数据重构，数据重构依旧属于数据理解（准备）的范围。开始之前，导入numpy、pandas包和数据# 导入基本库import pandas as pdimport numpy as np# 载入上一个任务保存的文件中:result.csv，并查看这个文件df=pd.read
复制链接

扫一扫

专栏目录