python合并两个数据集_使用python对不同数据集进行多键合并

前言

数据探索过程中,我们经常会遇到这样的场景。多个数据源情况下,需要将不同数据源的数据合并在一起,然后进一步进行数据处理与分析,或者进行机器学习亦或是深度学习。小编在本文中,主要介绍如何通过python 进行数据的合并。

使用python 进行数据集合并工作时,有三种连接方式,我们在这里先回顾一下:外连接(how='outer'):求取的是键的并集,组合了左连接和右连接的效果。

左连接(how=’left’):指定左键,会以左边为主。左边展示全部,右边只展示与左边公共部分;若左边有,右边没有,则右边为NAN。左边没有,右边有,则不展示。

内连接(how=’inner’):内连接取的是两个数据集的交集。

默认情况下,merge做的是“inner”连接;结果中的键是交集。其他方式还有“left”、“right”以及“outer”。外连接求取的是键的并集,组合了左连接和右连接的效果。

操作的步骤

首先,我们先引入pandas包,将其命名为pd;

其次,从pandas包中,引入Series和DataFrame两种数据结构。

第三,创建两个数据集,分别为left和right。

第四,使用pd.merge()进行数据集合并。

具体代码内容如下所示:

In [1]: import pandas as pd

In [2]: from pandas import Series,DataFrame

In [3]: left=DataFrame({'key1':['foo','foo','bar'],'key2':['one','two','one'],'1val':[1,2,3]})

In [4]: right=DataFrame({'key1':['foo','foo','bar','bar'],'key2':['one','two','one','two'],'1val':[4,5,6,7]})

In [5]: pd.merge(left,right,on=['key1','key2'],how='outer')

Out[5]:

key1 key2 1val_x 1val_y

0 foo one 1.0 4

1 foo two 2.0 5

2 bar one 3.0 6

3 bar two NaN 7

从运行的结果中可见,使用pd.merge()合并了left和right两个数据集,通过on参数指定“key1”和“key2"两个键,采用外连接(how='outer')的方式。小编此处介绍的是其中一种的数据集合并的场景,其他方式将持续进行分享,欢迎关注!

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值