脏数据匹配
一般数据建模步骤中,数据清洗耗时占比80%以上,因为现实中接触到的数据相当脏,无法直接简单的用pandas的merge函数解决。下面以QS大学排名的匹配为例,简单介绍脏数据匹配中会遇到的问题和主要步骤。
1 问题描述
给定一个QS大学排名数据集,主要字段为大学名和排名,再给定一个带大学名称的本地数据集,我们需要根据QS表中的名字与我们已有的数据集中的大学名字进行匹配,然后将对应的QS排名添加到本地数据集中。QS数据集和本地数据集形式如下图:
数据匹配的过程中,可能出现以下几个问题需要处理。
- 格式:比如是否加标点符号,名称顺序不同等
- 语言:不同国家的学校语言可能不同
- 别名:新旧名或多个名字、缩写等等
2 一般步骤
对于较为规整的数据,可以尝试直接用pandas的merge函数进行匹配,效率往往也较高。但merge函数只能解决规范化的问题,则建议使用json类型转化为列表和字典的组合形式,虽然降低了数据处理的速度,但提供了更灵活的匹配与修改操作。(ps 建议熟练掌握pandas的常用数据处理函数,了解其规范化的处理方式以及使用限制,才能很快判断是否能用标准库处理。)
原则上,匹配的过程遵循从精准匹配到模糊匹配的顺序。 因为已经匹配的数据将不参与后续的匹配,而模糊匹配可能会出现错误,且后续无法纠正该错误,所以应该在前面步骤实在无法匹配成功的情况下使用模糊匹配。
2.1 数据导入
# 将csv转为json再导入
qs = pd.read_csv('2024 QS World University Rankings 1.1 (For qs.com).csv')
data = pd.read_csv('data.csv')
qs.to_json('QS_rank.json', orient='records')
data.to_json('data.json', orient='records')
with open('QS_rank.json', 'r', encoding='utf-8') as f:
qs = json.load(f)
with open('data.json', 'r', encoding='utf-8') as f:
data = json.load(f)
2.2 匹配函数
left_on和right_on分别为左右合并键&#x