Pandas连接

美国疫情数据集

现有美国4月12日至11月16日的疫情报表,请将New York的Confirmed, Deaths, Recovered, Active合并为一张表,索引为按如下方法生成的日期字符串序列:

找到4月12日的报表数据:
在这里插入图片描述
设置索引
在这里插入图片描述
调出4月12日的的New York的Confirmed, Deaths, Recovered, Active
在这里插入图片描述
以日期为主的字符串索引列表
在这里插入图片描述
Ex2:实现join函数

请实现带有how参数的join函数

假设连接的两表无公共列
调用方式为 join(df1, df2, how=“left”)
给出测试样例

以下选取课后答案,进行理解
在这里插入图片描述左拼接
在这里插入图片描述
右拼接
在这里插入图片描述

索引连接
pandas 中利用 join 函数来处理索引连接,它的参数选择要少于 merge ,除了必须的 on 和 how 之外,可以对重复的列指定左右后缀 lsuffix 和 rsuffix 。其中, on 参数指索引名,单层索引时省略参数表示按照当前索引连接。

方向连接
在 concat 中,最常用的有三个参数,它们是 axis, join, keys ,分别表示拼接方向,当确认要使用多表直接的方向合并时,尤其是横向的合并,可以先用 reset_index 方法恢复默认整数索引再进行合并,防止出现由索引的错误。

当确认要使用多表直接的方向合并时,尤其是横向的合并,可以先用 reset_index 方法恢复默认整数索引再进行合并,防止出现由索引的误对齐和重复索引的笛卡尔积带来的错误结果。
序列与表的合并

在 append 中,如果原表是默认整数序列的索引,那么可以使用 ignore_index=True 对新序列对应索引的自动标号,否则必须对 Series 指定 name 属性。

pandas中的关系型连接函数merge和join中提供了how参数来代表连接形式,分为左连接left、右连接right、内连接inner、外连接outer,它们的区别可以用如下示意图表示:
在这里插入图片描述
从图中可以看到,所谓左连接即以左边的键为准,如果右边表中的键于左边存在,那么就添加到左边,否则则处理为缺失值,右连接类似处理。内连接只负责合并两边同时出现的键,而外连接则会在内连接的基础上包含只在左边出现以及只在右边出现的值,因此外连接又叫全连接。上面这个简单的例子中,同一个表中的键没有出现重复的情况,那么如果出现重复的键应该如何处理?只需把握一个原则,即只要两边同时出现的值,就以笛卡尔积的方式加入,如果单边出现则根据连接形式进行处理。其中,关于笛卡尔积可用如下例子说明:设左表中键张三出现两次,右表中的张三也出现两次,那么逐个进行匹配,最后产生的表必然包含2*2个姓名为张三的行。下面是一个对应例子的示意图:
在这里插入图片描述
显然在不同的场合应该使用不同的连接形式。其中左连接和右连接是等价的,由于它们的结果中的键是被一侧的表确定的,因此常常用于有方向性地添加到目标表。内外连接两侧的表,经常是地位类似的,想取出键的交集或者并集,具体的操作还需要业务的需求来判断。

一个热爱学习的社区和论坛http://datawhale.club 一群热爱学习小伙伴无私奉献

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值