在办公场景中,我们常常会遇到这样的场景:多个的Excel文件需要基于某一列或多列进行数据的匹配、合并,并提取出匹配数据中的相关数据。
最近遇到了这样一个问题:在核酸检测过程中,某个混检的试管出了问题,而之前采样的20人已经离开了,需要在4000多人中快速找到这20人的联系方式,以便重新采集。最惨的是采集app上只能看到这20人的身份证尾号和姓氏。
要解决这个问题关键有两步:匹配数据
和提取数据
。
Python中的pandas
库提供了这一个问题的解决方案。代码写好后,只需关注两点:按哪列数据匹配
、要提取哪些列
,便可以解决这类问题。
问题描述
1.辅助列生成
import pandas as pd
# 读取Excel文件
df1 = pd.read_excel('