作为数据分析师日常工作中会遇到各种各样的数据处理需求, 因为数据量巨大的原因无法手动处理表格,正好会应用Python工具,今天就借此机会来展示Pandas中Groupby与Merge处理数据表格的快捷与美化。
GROUPBY:函数主要的作用是进行数据的分组以及分组后地组内运算!groupby
的过程就是将原有的DataFrame
按照groupby
的字段(这里是company
),划分为若干个分组DataFrame
,被分为多少个组就有多少个分组DataFrame
。所以说,在groupby
之后的一系列操作(如agg
、apply
等),均是基于子DataFrame
的操作。
MERGE:数据合并时可以使用merge方法,对两个dataFrame根据某一个series合并,这个方法非常好用,只要找到了合并的标准,新的数据就可以重构出来。
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True,
suffixes=('_x', '_y'), copy=True, indicator=False,
validate=None)
我这里就解释两个参数
一个是on :他就相当于sql表中的外键
另一个是how:他就相当于两个表是左外连接、右外连接、内连接、全连接
项目实例:
一:数据处理背景以及目标
下表是需要处理的原始数据表格式:
下表是需要输出的数据表格式:
目标:分别查看各级类目的相关的销量以及件数,进行分层次化数据处理与汇总。
二:数据分层处理——GROUPBY用于将数据进行分层
#插入相应模块以备调用
import pandas as pd
import numpy as np
#读取原始数据表
df = pd.read_excel(r'C:\Users\XXXX\Desktop\练习.xlsx&