Python字符串匹配神器TheFuzz库详解-CSDN博客

本文链接：https://blog.csdn.net/github_miao/article/details/137215839

更多Python学习内容：ipengtao.com

TheFuzz是Python中一个强大的字符串模糊匹配库，提供了多种字符串相似度算法和匹配方法，可以用于文本匹配、模糊搜索、数据清洗等场景。本文将深入探讨TheFuzz库的使用方法、常用函数、算法原理以及示例代码，帮助更好地理解和应用该库。

TheFuzz库简介

TheFuzz库是一个开源的Python库，用于字符串相似度计算和模糊匹配。它基于Levenshtein距离、Jaro-Winkler距离等算法，提供了多种函数和工具，能够快速高效地进行字符串匹配和搜索。

安装和导入TheFuzz库

可以使用pip安装TheFuzz库：

pip install python-Levenshtein
pip install fuzzywuzzy

导入TheFuzz库：

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

TheFuzz库常用函数

1. 字符串相似度计算

TheFuzz库提供了fuzz.ratio()函数用于计算两个字符串的相似度，返回一个百分比值表示匹配程度，范围在0到100之间，值越高表示越相似。

str1 = "apple"
str2 = "aple"
similarity_ratio = fuzz.ratio(str1, str2)
print(similarity_ratio)  # 输出 80，表示相似度为80%

2. 模糊匹配搜索

TheFuzz库的process.extract()函数用于在一组字符串中进行模糊匹配搜索，并返回匹配度最高的结果。

choices = ["apple", "banana", "orange", "grape"]
query = "app"
best_match = process.extractOne(query, choices)
print(best_match)  # 输出 ('apple', 90)，表示匹配度最高的结果为'apple'，匹配度为90%

TheFuzz库算法原理

TheFuzz库基于Levenshtein距离、Jaro-Winkler距离等算法实现字符串相似度计算和模糊匹配。Levenshtein距离是衡量两个字符串相似程度的一种方法，它表示从一个字符串转换到另一个字符串所需的最少编辑操作次数。Jaro-Winkler距离是一种字符串相似度度量方法，考虑了字符的相对位置和匹配度，适用于较短的字符串。

实际应用示例

示例一：字符串相似度计算

from fuzzywuzzy import fuzz

# 计算字符串相似度
similarity_ratio = fuzz.ratio("apple", "aple")
print(similarity_ratio)  # 输出 80，表示相似度为80%

在这个示例中，使用TheFuzz库的fuzz.ratio()函数计算了字符串"apple"和"aple"的相似度，得到的相似度值为80%。

示例二：模糊匹配搜索

from fuzzywuzzy import process

# 准备选择列表和查询字符串
choices = ["apple", "banana", "orange", "grape"]
query = "app"

# 进行模糊匹配搜索
best_match = process.extractOne(query, choices)
print(best_match)  # 输出 ('apple', 90)，表示匹配度最高的结果为'apple'，匹配度为90%

在这个示例中，使用TheFuzz库的process.extractOne()函数在选择列表中进行模糊匹配搜索，并返回匹配度最高的结果。

示例三：批量字符串匹配

from fuzzywuzzy import fuzz

# 准备字符串列表
strings = ["apple", "aple", "banana", "orange", "grape"]

# 批量计算相似度
similarities = []
for string1 in strings:
    for string2 in strings:
        similarity_ratio = fuzz.ratio(string1, string2)
        similarities.append((string1, string2, similarity_ratio))

# 输出相似度结果
for similarity in similarities:
    print(f"字符串 '{similarity[0]}' 和 '{similarity[1]}' 的相似度为 {similarity[2]}%")

在这个示例中，批量计算了字符串列表中各个字符串之间的相似度，并输出了相似度结果。

示例四：数据清洗与字符串匹配

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# 原始数据
data = ["apple", "apl", "appl", "banana", "orange", "grape"]

# 清洗数据并进行字符串匹配
cleaned_data = [item for item in data if len(item) >= 4]  # 清洗出长度大于等于4的字符串
query = "appl"
best_match = process.extractOne(query, cleaned_data)
print(best_match)  # 输出 ('appl', 100)，表示匹配度最高的结果为'appl'，匹配度为100%

这个示例展示了如何在数据清洗过程中使用TheFuzz库进行字符串匹配。首先对原始数据进行清洗，只保留长度大于等于4的字符串，然后使用process.extractOne()函数进行字符串匹配搜索，得到匹配度最高的结果。

示例五：多种匹配算法比较

from fuzzywuzzy import fuzz

str1 = "apple"
str2 = "aple"
str3 = "aplee"

# 使用不同的匹配算法进行比较
ratio_ratio = fuzz.ratio(str1, str2)
partial_ratio = fuzz.partial_ratio(str1, str3)
token_sort_ratio = fuzz.token_sort_ratio(str1, str2)
token_set_ratio = fuzz.token_set_ratio(str1, str3)

# 输出比较结果
print("使用ratio算法比较:", ratio_ratio)  # 输出 80，表示相似度为80%
print("使用partial_ratio算法比较:", partial_ratio)  # 输出 80，表示相似度为80%
print("使用token_sort_ratio算法比较:", token_sort_ratio)  # 输出 80，表示相似度为80%
print("使用token_set_ratio算法比较:", token_set_ratio)  # 输出 100，表示相似度为100%

这个示例比较了不同的匹配算法在字符串比较中的效果。使用了fuzz.ratio()、fuzz.partial_ratio()、fuzz.token_sort_ratio()和fuzz.token_set_ratio()等函数进行比较，展示了它们在不同情况下的匹配结果。