用pandas 实现excel的vlookup功能,但如果遭到子表(df_sub)-被替换字段的表及全表(df_all)均有重复记录时,直接用pandas的merge方法会形成笛卡尔积,与excel中的vlookup函数就不一样了。我们首先想到的是去重功能。的确必须去重,但要保留子表中的重复记录(因为excel的vlookup功能发现子表有重复记录,始终会取第一次出现在主表中的符合子表(关键字段)的记录中被查找字段值)。
以下我工作中用到的代码:
核心内容都用了。读者应该能体会到用意。代码中“流水号”是关键字段!lambda函数起到了事半功倍的作用。
import pandas as pd
def my_xyk(a,b):
if ('XYK') in a:
return a+str(b)
else:
return a
def vlookup_sub_find_all(sub_file,all_file,xm):
"""
处理分量匹配全量用途:
vlookup_sub_find_all(gl_dlpath+'df1.xlsx',gl_dlpath+'df2.xlsx')
参数:sub_file,分量数据文件
all_file,全量数据文件
xm,写回去的文件名,全称='.\\pivot\\'+xm+'.xlsx'
"""
df_sub=pd.DataFrame(pd.read_excel(sub_file,converters={'客户号':str,'帐号':str,'对方帐号':str})) #读入子表,
df_sub['对方机构名称&

这篇博客探讨了如何利用pandas在Python中模拟Excel的Vlookup功能,特别是处理子表和全表存在重复记录的情况。通过使用merge方法和去重操作,确保结果与Excel的Vlookup一致。文中提供了实际的代码示例,强调了流水号作为关键字段,并利用lambda函数简化操作。
最低0.47元/天 解锁文章
1277

被折叠的 条评论
为什么被折叠?



