数据分析第三回-数据重构

最新推荐文章于 2023-01-31 00:30:00 发布

VIP文章数分虐我千百遍

最新推荐文章于 2023-01-31 00:30:00 发布

阅读量2k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_45019698/article/details/123596023

版权

数据重构

本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务，实战数据分析全流程。
教程内容开源地址:
github: https://github.com/datawhalechina/hands-on-data-analysis
gitee:https://gitee.com/datawhalechina/hands-on-data-analysis

接下来要重点研究一下数据重构。本章我们着重研究一下SAC过程(split-apply-combine),对数据基于某一些规则将数据源拆成若干组，apply是对每一组独立地使用函数，combine指将每一组的结果组合成某一类数据结构.

本次实验平台为: Jupyter Notebook、Numpy、Pandas

# 导入基本库
import pandas as pd

分组操作在日常生活中使用极其广泛，例如：

依据 性别 分组，统计全国人口 寿命 的 平均值

依据 班级 分组，筛选出组内分数的 平均值超过80分的班级

从上述的几个例子中不难看出，想要实现分组操作，必须明确三个要素：分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说，如果明确了这三方面，就能确定一个分组操作，从而分组代码的一般模式即：

dataframe.groupby(分组依据)[数据来源].使用操作

例如：

# dataframe: result 分组依据 result["Sex"] 数据来源result.groupby(result["Sex"])["Fare"] 
# 具体操作 mean()
result.groupby(result["Sex"])["Fare"].mean()

# dataframe result 分组依据 result["Sex"] 数据来源["Survived"] 具体操作 sum()
result.groupby(result["Sex"])["Survived"].sum()

result.groupby(result["Pclass"])["Survived"].sum()

前面提到的若干例子都是以单一维度进行分组的，比如根据性别，如果现在需要根据多个维度进行分组，该如何做？事实上，只需在 groupby 中传入相应列名构成的列表即可。
比如：

# 分

关注