【python】———merge函数

本文详细介绍了使用Pandas库的merge函数进行数据合并时,如何处理右表重复值的问题。通过实例展示了当右表无重复项时,左右匹配的结果保持原左表行数;而当右表存在重复项时,未去重会导致左表行数增加。为确保匹配准确性,通常需要先对右表进行去重处理。最后,总结了在数据匹配中对右表去重的重要性。
摘要由CSDN通过智能技术生成

@爱学习的DUO

  • merge()表示将【左表】和【右表】,按某个均有的字段,进行横向匹配。

1 数据读取(A、B表)

import pandas as pd
A = pd.read_excel('D:/pp/test.xlsx','Sheet1');A
B = pd.read_excel('D:/pp/test.xlsx','Sheet2');B
  • A表(左),B表(右)

在这里插入图片描述

2 当右表无重复项

例1:有A(5行)、B(10行)两个表,按IDkey进行横向匹配。
(1)首先把B表的列名字【key】改为【ID】,以便于后续匹配。

B=B.rename(columns={'key':'ID'});B

(2)用B表去匹配A表(参数=‘left’)。

AB=pd.merge(A,B,on = ['ID'],how='left');AB
  • 结果(左表多少行,匹配结果就多少行)
    在这里插入图片描述
    (3)用A表去匹配B表(参数=‘left’)。
BA=pd.merge(B,A,on = ['ID'],how='left');BA
  • 结果(左表多少行,匹配结果就多少行)
    在这里插入图片描述

3 当右表有重复项

3.1 数据读取(C表)

C = pd.read_excel('D:/pp/test.xlsx','Sheet3');C
  • 结果
    在这里插入图片描述

3.2 不对右表去重

AC=pd.merge(A,C,on = ['ID'],how='left');AC
  • 结果(发现左表行数增多)
    在这里插入图片描述

3.3 对右表去重处理

(1)对C表的ID去重,重命名为C_qc

C_qc=C.drop_duplicates(['ID'])
C_qc
  • 去重的C表(C_qc)
    在这里插入图片描述
    (2) 使用C表去匹配A表(参数=left)
AC1=pd.merge(A,C_qc,on = ['ID'],how='left');AC1
  • 结果
    在这里插入图片描述

3.4 总结

可以看出,使用merge函数的时候,如果右表有重复值,会导致结果的不准确。所以一般对右表做去重处理,再与左表进行横向匹配。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值