3. 清洗常用4板斧

最新推荐文章于 2021-08-30 22:35:48 发布

SoWhat1412

最新推荐文章于 2021-08-30 22:35:48 发布

阅读量467

点赞数 4

分类专栏： # pandas 文章标签： panda

本文链接：https://blog.csdn.net/qq_31821675/article/details/107162027

版权

pandas 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

引言

这是Python数据分析实战基础的第三篇内容，主要对前两篇进行补充，把实际数据清洗场景下常用但零散的方法，按增、删、查、分四板斧的逻辑进行归类，以减少记忆成本，提升学习和使用效率。

数据集

一级流量

流量级别	投放地区	访客数	支付转化率	客单价	支付金额
一级	A区	44,300	11.78%	58.79	306,887.83
一级	B区	30,612	13.85%	86.64	367,338.10
一级	C区	18,389	2.50%	0.28	129.58
一级	D区	4,509	10.73%	64.12	31,035.14
一级	E区	3,769	5.73%	92.91	20,068.20
一级	F区	2,424	22.07%	89.33	47,791.60
一级	G区	2,412	8.21%	56.04	11,096.42

二级流量

流量级别	投放地区	访客数	支付转化率	客单价	支付金额
二级	A区	29,111	10.66%	87.4	271,189.23
二级	B区	17,165	22.71%	91.22	355,662.39
二级	C区	8,870	0.78%	44.52	3,072.00

三级流量

流量级别	投放地区	访客数	支付转化率	客单价	支付金额
三级	A区	45,059	13.66%	90.11	554,561.22
三级	B区	2,133	10.83%	74.48	17,204.50
三级	C区	899	9.90%	92.99	8,276.50
三级	D区	31	0.00%
三级	E区	17	0.00%

上述三个级别数据在同一个excel中不同Sheet中。

首先，导入案例数据集。因为案例数据存放在同一个Excel表的不同Sheet下，我们需要指定sheetname分别读取：在这里插入图片描述
下面开始清洗的正餐。

1 增——拓展数据维度

1. 多行合并

这三个sheet的数据，维度完全一致（每列数据都是一样），纵向合并起来分析十分方便。说到纵向合并，concat大佬不请自来，他的招式简单明了 pd.concat([表1，表2，表3])，对于列字段统一的数据，我们只需把表依次传入参数：在这里插入图片描述
concat大佬继续说到：其实把我参数axis设置成1就可以横向合并 说时迟那时快，我一个箭步冲上去捂住他的嘴巴,牛逼的人做好一件事就够了，横向的就交给merge吧~！

温馨提示：pandas中很多函数功能十分强大，能够实现多种功能，但对于萌新来说，过多甚至交叉的功能往往会造成懵B的状态，所以这里一种功能先只用一种方式来实现。

2. 多列合并

横向合并涉及到连接问题，为方便理解，我们构造一些更有代表性的数据集练手：

h1 = pd.DataFrame({'语文':[93,80,85,76,58],'数学':[87,99,95,85,70],'英语':[80,85,97,65,88]},index=['韩梅梅','李雷','李华','王明','铁蛋'])
h1 

h2 = pd.DataFrame({'篮球':[93,80,85,76],'舞蹈':[87,99,95,85]},index=['李华','王明','铁蛋','刘强'])
h2

在这里插入图片描述
两个DataFrame是两张成绩表，h1是5位同学的数学、英语、语文成绩，h2是4位同学的篮球和舞蹈成绩，现在想找到并合并两张表同时出现的同学及其成绩，可以用merge方法：

pd.merge(left=h1,right=h2,left_index=True,right_index=True,how='inner')

也可以指定 左右表关联的字段哦
data = pd.merge(left=intopiece_label, right=intopiece_pr, how="inner", left_on="order_number",right_on="order_number")

在这里插入图片描述
我们来详解一下merge的参数，left和rgiht分别对应着需要连接的左表和右表，这里语数外成绩表是左表，篮球、舞蹈成绩是右表。

left_index与right_index是当我们用索引（这两个表的名字在索引中）连接时指定的参数，设置为on表示用该表的索引作为连接的条件（或者说桥梁）。假设姓名是单独的一列值，且需要根据姓名进行匹配，那就需要用·left_on = ‘姓名’,right_on = '姓名·，我们可以分别指定左表的匹配列和右表的匹配列。

how是指定连接方式，这里用的inner，表示我们基于姓名索引来匹配，只返回两个表中共同（同时出现）姓名的数据。下面详解一下inner还涉及到的其他参数——left、right、outer。

左右连接（left和right）：
在这里插入图片描述
左连接（left）和右连接（right），我们可以直观理解为哪边的表是老大，谁是老大，就听谁的（所有行全部保持），先看左连接，左表h1原封不动，右边根据左表进行合并，如果存在相关的名字，就正常返回数据，如果不存在（韩梅梅、李雷），就返回空(NAN)值；右连接就是听右表的，左表有则返回无则为空。

外连接（outer）：
在这里插入图片描述
外连接是两张表妥协的产物，我的数据全保留，你的也全保留，你有我无的就空着，你无我有的也空着。跟SQL中的操作几乎类似。

2 删——删空去重

1. 删空

在一些场景，源数据的缺失（空值）对于分析来说是干扰项，需要系统的删除。上文我们合并后的df数据集就是有缺失数据的：
在这里插入图片描述
要删除空值，一个dropna即可搞定：

dropna函数默认删除所有出现空值的行，即只要一行中任意一个字段为空，就会被删除。我们可以设置subset参数，例如dropna(subset = ['city'])，来指定当一行中的city字段为空时，才会被删除。

2. 去重

drop_duplicates() 说是讲去重，但是案例数据比较干净，没有两行数据是完全一样的，所以我们要制造点困难，增加几行重复值：
在这里插入图片描述

在这里插入图片描述
drop_duplicates 方法去重默认会删掉完全重复的行（每个值都一样的行），如果我们要删除指定列重复的数据，可以通过指定subset参数来实现，假如我们有个奇葩想法，要基于流量级别这列进行去重，则可以：
在这里插入图片描述
我们会发现，流量有三个级别，通过指定subset参数，我们删除了这个字段重复的行，保留了各自不重复的第一行。继续展开讲，在源数据中，流量渠道为一级的有7行数据，每行数据其他字段都不相同，这里我们删除了后6行，只保留了第一行，但如果我们想在去重的过程中删除前面6行，保留最后一行数据怎么操作？答案很简单，指定keep参数即可。
在这里插入图片描述
keep值等于last，保留最后一行数据，不输入keep值时，系统默认会给keep赋值为first，就会保留第一行数据而删掉其他的。

3 查——基于条件查询

查，不是单纯的返回几行数据，而是根据业务实际需求，基于一定的条件查看和选择数据。

1 按条件索引/筛选

loc独白：你没有看错，哥的分量实在是太重了，所以又来抢个沙发，刷个脸熟。
需求：是筛选出访客数大于10000的一级渠道，loc一下：
在这里插入图片描述

2. 3.2 排序

很多情况下，我们都需要通过排序来观察数据规律，以及快速筛选出TOP N的数据项。对于案例数据，我们怎么样按交易金额进行排序并筛选出TOP3的渠道呢？

问题的关键就在于排序，这个时候sort_values函数就派上用场了：在这里插入图片描述
整个操作十分简单，sort_values函数，顾名思义是按照数值进行排序，首先要传入的参数是列参数，即我们根据哪一列的数值来进行排序，ascending参数决定了排序顺序，等于Flase则是从大到小的降序，设置为True则是升序。

排序完之后，筛选TOP3渠道就非常简单：
在这里插入图片描述
补充一个知识点，如果跟着文章操作，会发现无论是删空的dropna，还是去重的drop_duplicates，或者是排序的sort_values，在对源数据进行操作后，源数据并未改变，这是因为我们没有对这几个函数的inplace值进行设置，如果设置成inplace = True，删空、去重和排序都会在源数据上生效。

但这里为了避免出现不必要的错误而无法更改，更建议大家把操作后的源数据赋值给新的变量，如new = df.dropna()，而不是将源数据的inplace参数设置为True。跟Scala 还有Spark的机制类似。

4 分——分组和切分

话天下大势，合久必分，数据亦是如此。在分组的版块中，我们重点介绍groupby分组和cut切分。

1分组

在案例数据中，总的流量级别有三级，每一级下又有多个投放地区，如果我们想汇总看每个级别流量所对应的总访客数和支付金额，就需要用到分组了。

groupby是分组函数，最主要的参数是列参数，即按照哪一列或者哪几列（多列要用列表外括）进行汇总，这里是按照流量级别：
在这里插入图片描述
可以看到，直接分组之后，没有返回任何我们期望的数据，要进一步得到数据，需要在分组的时候对相关字段进行计算（常用的计算方法包括sum、max、min、mean、std）：
后面加上了sum，代表我们先按照流量级别进行分组，再对分组内的字段求和。由于没有指定求和的列，所以是对所有数值型字段进行了求和。此处我们只想要各级别流量下的访客数和支付金额，需要指明参数：
在这里插入图片描述
流量级别作为汇总的依据列，默认转化为索引列，如果我们不希望它变成索引，向groupby内传入参数as_index = False即可：

2 切分

切分（分桶）操作常用于一维数组的分类和打标，cut函数能够高效的完成任务。它的主要参数和用法如下：

pd.cut(x,bins,right,labels)

第一个参数x是我们要传入跟切分的一维数组，可以是列表，也可以是DataFrame的一列
bins表示切分方式，可以自定义传入列表[a,b,c] 表示按照a-b-c区间进行切分，也可以输入数值(比如5)直接将数据分成5份。
right的值可以设置为True 或 False,当为True时候表示分组区间是包含右边，不包含左边。等于False表示含左不含右。
labels就是打标参数，我们把某列数据切分为3组，每一组给他们设置一个标签比如[低,中,高]

不要被复杂的解释迷惑，一个例子就完全搞懂了。以案例数据为例，每个渠道都有对应的访客数，我们现在希望对各渠道访客级别进行评估，按照访客数大小，分成辣鸡（流量100以内的）、百级、千级和万级的渠道。在这里插入图片描述
因为我们想对流量级别进行百、千、万的归类，所以把分组数值标准传入bins参数。从结果可以看到，在不设置right的情况下，分组区间是默认左开右闭的，而我们希望的是左闭右开，即百级流量渠道访客数在0-99之间，所以需要将right值设置为False。

下面我们直接对分组后的数据进行打标，访客数在0-99设置为辣鸡，100-999设置为百级，千级和万级以此类推，同时将打好标签的数据作为新列给到源数据：

df['分类标签'] = pd.cut(x=df['访客数'],bins=[0,100,1000,10000,100000],right=False,labels=['垃圾','百级','千级','万级'])

在这里插入图片描述

非常高效，一行半代码就搞定了分组、判断和打标的过程。

总结

本文从增、删、查、分四个模块，分别介绍了横向、纵向合并；删空、去重；筛选、排序和分组、切分等数据清洗过程中的常见操作。在实际运用中，各操作往往是你中有我，我中有你，共同为了营造一个干净的数据而努力。

SoWhat1412

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
3. 清洗常用4板斧

引言这是Python数据分析实战基础的第三篇内容，主要对前两篇进行补充，把实际数据清洗场景下常用但零散的方法，按增、删、查、分四板斧的逻辑进行归类，以减少记忆成本，提升学习和使用效率。数据集一级流量流量级别投放地区访客数支付转化率客单价支付金额一级A区44,30011.78%58.79306,887.83一级B区30,61213.85%86.64367,338.10一级C区18,3892.50%0.28129.58一级D区
复制链接

扫一扫