用 pandas 实现真实的Vlookup

这篇博客探讨了如何利用pandas在Python中模拟Excel的Vlookup功能,特别是处理子表和全表存在重复记录的情况。通过使用merge方法和去重操作,确保结果与Excel的Vlookup一致。文中提供了实际的代码示例,强调了流水号作为关键字段,并利用lambda函数简化操作。
摘要由CSDN通过智能技术生成

用pandas 实现excel的vlookup功能,但如果遭到子表(df_sub)-被替换字段的表及全表(df_all)均有重复记录时,直接用pandas的merge方法会形成笛卡尔积,与excel中的vlookup函数就不一样了。我们首先想到的是去重功能。的确必须去重,但要保留子表中的重复记录(因为excel的vlookup功能发现子表有重复记录,始终会取第一次出现在主表中的符合子表(关键字段)的记录中被查找字段值)。
以下我工作中用到的代码:
核心内容都用了。读者应该能体会到用意。代码中“流水号”是关键字段!lambda函数起到了事半功倍的作用。

import pandas as pd
def my_xyk(a,b):
    if ('XYK') in a:
        return a+str(b)
    else:
        return a

def vlookup_sub_find_all(sub_file,all_file,xm):
    """
    处理分量匹配全量用途:
    vlookup_sub_find_all(gl_dlpath+'df1.xlsx',gl_dlpath+'df2.xlsx')
    参数:sub_file,分量数据文件
          all_file,全量数据文件
          xm,写回去的文件名,全称='.\\pivot\\'+xm+'.xlsx'
    """ 
    df_sub=pd.DataFrame(pd.read_excel(sub_file,converters={'客户号':str,'帐号':str,'对方帐号':str}))  #读入子表,
    df_sub['对方机构名称&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值