组队学习5：Pandas合并（一）（基于Python）

最新推荐文章于 2022-10-12 22:22:20 发布

绝对是谨慎提交的昵称

最新推荐文章于 2022-10-12 22:22:20 发布

阅读量235

点赞数

分类专栏：组队学习·数据竞赛文章标签： python 数据分析

本文链接：https://blog.csdn.net/sunsimiaofromsh/article/details/105870430

版权

组队学习·数据竞赛专栏收录该内容

8 篇文章 0 订阅

订阅专栏

组队学习介绍

最近事情太多（以及人太懒），好久没有空更新博客，遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas，该模块用于数据导入及整理的模块，对数据挖掘前期数据的处理工作十分有用。

学习小组的时间安排大致如下：

Task01：Pandas基础（1天）
Task02：索引（3天）
Task03：分组（2天）
Task04：变形（2天）
Task05：合并（2天）
Task06：综合练习（1天）

学习小组的参考资料是Datawhale-GYH助教撰写的¹。

本博文的笔记概览如下所示：

导入数据：

import numpy as np
import pandas as pd

# 规定路径
path = '/Users/sunsimiao/Documents/2020自学/202004组队学Pandas/joyful-pandas-master/data/'
df = pd.read_csv(path+'table.csv')
df.head()

ID	School	Class	Gender	Address	Height	Weight	Math Physics						
1101	S_1	C_1	M	street_1	173	63	34.0	A+
1102	S_1	C_1	F	street_2	192	73	32.5	B+
1103	S_1	C_1	M	street_2	186	82	87.2	B+
1104	S_1	C_1	F	street_2	167	81	80.4	B-
1105	S_1	C_1	F	street_4	159	64	84.8	B+
1201	S_1	C_2	M	street_5	188	68	97.0	A-
1202	S_1	C_2	F	street_4	176	94	63.5	B-
1203	S_1	C_2	M	street_6	160	53	58.8	A+
1204	S_1	C_2	F	street_5	162	63	33.8	B
1205	S_1	C_2	F	street_6	167	63	68.4	B-
1301	S_1	C_3	M	street_4	161	68	31.5	B+
1302	S_1	C_3	F	street_1	175	57	87.7	A-
1303	S_1	C_3	M	street_7	188	82	49.7	B
1304	S_1	C_3	M	street_2	195	70	85.2	A
1305	S_1	C_3	F	street_5	187	69	61.7	B-
2101	S_2	C_1	M	street_7	174	84	83.3	C
2102	S_2	C_1	F	street_6	161	61	50.6	B+
2103	S_2	C_1	M	street_4	157	61	52.5	B-
2104	S_2	C_1	F	street_5	159	97	72.2	B+
2105	S_2	C_1	M	street_4	170	81	34.2	A
2201	S_2	C_2	M	street_5	193	100	39.1	B
2202	S_2	C_2	F	street_7	194	77	68.5	B+
2203	S_2	C_2	M	street_4	155	91	73.8	A+
2204	S_2	C_2	M	street_1	175	74	47.2	B-
2205	S_2	C_2	F	street_7	183	76	85.4	B
2301	S_2	C_3	F	street_4	157	78	72.3	B+
2302	S_2	C_3	M	street_5	171	88	32.7	A
2303	S_2	C_3	F	street_7	190	99	65.9	C
2304	S_2	C_3	F	street_6	164	81	95.5	A-
2305	S_2	C_3	M	street_4	187	73	48.9	B
2401	S_2	C_4	F	street_2	192	62	45.3	A
2402	S_2	C_4	M	street_7	166	82	48.7	B
2403	S_2	C_4	F	street_6	158	60	59.7	B+
2404	S_2	C_4	F	street_2	160	84	67.7	B
2405	S_2	C_4	F	street_6	193	54	47.6	B

一、append与assign

1. append方法

（1）利用序列添加行（必须指定name）

df_append = df.loc[:3,['Gender','Height']].copy()
df_append

在这里插入图片描述

s = pd.Series({'Gender':'F','Height':188},name='new_row')
df_append.append(s)

在这里插入图片描述

（2）用DataFrame添加表

df_temp = pd.DataFrame({'Gender':['F','M'],'Height':[188,176]},index=['new_1','new_2'])
df_append.append(df_temp)

在这里插入图片描述

2. assign方法

该方法主要用于添加列，列名直接由参数指定：

s = pd.Series(list('abcd'),index=range(4))
df_append.assign(Letter=s)

在这里插入图片描述

可以一次添加多个列：

df_append.assign(col1=lambda x:x['Gender']*2,
                 col2=s)

在这里插入图片描述

二、combine与update

1. comine方法

comine和update都是用于表的填充函数，可以根据某种规则填充

（1）填充对象

可以看出combine方法是按照表的顺序轮流进行逐列循环的，而且自动索引对齐，缺失值为NaN，理解这一点很重要。

df_combine_1 = df.loc[:1,['Gender','Height']].copy()
df_combine_2 = df.loc[10:11,['Gender','Height']].copy()
df_combine_1.combine(df_combine_2,lambda x,y:print(x,y))

在这里插入图片描述

（2）一些例子

例①：根据列均值的大小填充

# 例子1
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [8, 7], 'B': [6, 5]})
df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y)

在这里插入图片描述

例②：索引对齐特性（默认状态下，后面的表没有的行列都会设置为NaN）

df2 = pd.DataFrame({'B': [8, 7], 'C': [6, 5]},index=[1,2])
df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y)

在这里插入图片描述

例③：使得df1原来符合条件的值不会被覆盖

df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y,overwrite=False)

在这里插入图片描述

例④：在新增匹配df2的元素位置填充-1

df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y,fill_value=-1)

在这里插入图片描述

（c）combine_first方法

这个方法作用是用df2填补df1的缺失值，功能比较简单，但很多时候会比combine更常用，下面举两个例子：

df1 = pd.DataFrame({'A': [None, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
df1.combine_first(df2)

在这里插入图片描述

df1 = pd.DataFrame({'A': [None, 0], 'B': [4, None]})
df2 = pd.DataFrame({'B': [3, 3], 'C': [1, 1]}, index=[1, 2])
df1.combine_first(df2)

在这里插入图片描述

2. update方法

（1）三个特点

①返回的框索引只会与被调用框的一致（默认使用左连接，下一节会介绍）

②第二个框中的nan元素不会起作用

③没有返回值，直接在df上操作

（2）例子

例①：索引完全对齐情况下的操作

df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [400, 500, 600]})
df2 = pd.DataFrame({'B': [4, 5, 6],
                    'C': [7, 8, 9]})
df1.update(df2)
df1

在这里插入图片描述

例②：部分填充

df1 = pd.DataFrame({'A': ['a', 'b', 'c'],
                    'B': ['x', 'y', 'z']})
df2 = pd.DataFrame({'B': ['d', 'e']}, index=[1,2])
df1.update(df2)
df1

在这里插入图片描述

例③：缺失值不会填充

df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [400, 500, 600]})
df2 = pd.DataFrame({'B': [4, np.nan, 6]})
df1.update(df2)
df1

在这里插入图片描述

三、concat方法

concat方法可以在两个维度上拼接，默认纵向凭借（axis=0），拼接方式默认外连接。

所谓外连接，就是取拼接方向的并集，而’inner’时取拼接方向（若使用默认的纵向拼接，则为列的交集）的交集。

下面举一些例子说明其参数：

df1 = pd.DataFrame({'A': ['A0', 'A1'],
                    'B': ['B0', 'B1']},
                    index = [0,1])
df2 = pd.DataFrame({'A': ['A2', 'A3'],
                    'B': ['B2', 'B3']},
                    index = [2,3])
df3 = pd.DataFrame({'A': ['A1', 'A3'],
                    'D': ['D1', 'D3'],
                    'E': ['E1', 'E3']},
                    index = [1,3])

默认状态拼接：

pd.concat([df1,df2])

在这里插入图片描述

axis=1时沿列方向拼接：

pd.concat([df1,df2],axis=1)

在这里插入图片描述

join设置为内连接（由于axis=0，因此列取交集）：

pd.concat([df3,df1],join='inner')

在这里插入图片描述

join设置为外链接：

pd.concat([df3,df1],join='outer',sort=True) #sort设置列排序，默认为False

在这里插入图片描述

verify_integrity检查列是否唯一：

#pd.concat([df3,df1],verify_integrity=True,sort=True) 报错

同样，可以添加Series：

s = pd.Series(['X0', 'X1'], name='X')
pd.concat([df1,s],axis=1)

在这里插入图片描述

key参数用于对不同的数据框增加一个标号，便于索引：

pd.concat([df1,df2], keys=['x', 'y'])
pd.concat([df1,df2], keys=['x', 'y']).index

MultiIndex([('x', 0),
            ('x', 1),
            ('y', 2),
            ('y', 3)],
           )

参考资料

@GYHHAHA的githubhttps://github.com/datawhalechina/joyful-pandas ↩︎

绝对是谨慎提交的昵称

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录