两个好用到爆的Python模块，建议收藏-CSDN博客

本文链接：https://blog.csdn.net/hlh18030233613/article/details/131057691

本文介绍了Python中的FuzzyWuzzy库，用于解决数据中的模糊匹配问题。通过Levenshtein Distance算法，提供简单匹配、非完全匹配、忽略顺序匹配和去重子集匹配等功能。文章还展示了如何使用extract和extractOne函数提取匹配数据，并通过公司名称和省市字段的实战应用，演示了如何设置匹配阈值和处理匹配结果。

摘要由CSDN通过智能技术生成

转自：python专栏

在日常开发工作中，经常会遇到这样的一个问题：要对数据中的某个字段进行匹配，但这个字段有可能会有微小的差异。比如同样是招聘岗位的数据，里面省份一栏有的写“广西”，有的写“广西壮族自治区”，甚至还有写“广西省”……为此不得不增加许多代码来处理这些情况。

今天跟大家分享FuzzyWuzzy一个简单易用的模糊字符串匹配工具包。让你轻松解决烦恼的匹配问题！

前言

在处理数据的过程中，难免会遇到下面类似的场景，自己手里头获得的是简化版的数据字段，但是要比对的或者要合并的却是完整版的数据（有时候也会反过来）

最常见的一个例子就是：在进行地理可视化中，自己收集的数据只保留的缩写，比如北京，广西，新疆，西藏等，但是待匹配的字段数据却是北京市，广西壮族自治区，新疆维吾尔自治区，西藏自治区等，如下。因此就需要有没有一种方式可以很快速便捷的直接进行对应字段的匹配并将结果单独生成一列，就可以用到FuzzyWuzzy库。

FuzzyWuzzy库介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法，计算两个序列之间的差异。

Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

这里使用的是Anaconda下的jupyter notebook编程环境，因此在Anaconda的命令行中输入一下指令进行第三方库安装。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple FuzzyWuzzy

2.1 fuzz模块

该模块下主要介绍四个函数（方法），分别为：简单匹配（Ratio）、非完全匹配（Partial Ratio）、忽略顺序匹配（Token Sort Ratio）和去重子集匹配（Token Set Ratio）

注意：如果直接导入这个模块的话，系统会提示warning，当然这不代表报错，程序依旧可以运行（使用的默认算法，执行速度较慢），可以按照系统的提示安装python-Levenshtein库进行辅助，这有利于提高计算的速度。