【Python】模糊匹配搜索

最新推荐文章于 2024-08-16 09:59:05 发布

Lynqwest

最新推荐文章于 2024-08-16 09:59:05 发布

阅读量2.1w

点赞数 16

分类专栏： Python学习文章标签： python 模糊匹配模糊搜索 fuzzywuzzy difflib

本文链接：https://blog.csdn.net/lynqwest/article/details/109806055

版权

本文介绍了Python中的模糊匹配，主要涉及fuzzywuzzy库和difflib模块。fuzzywuzzy库提供了ratio(), partial_ratio(), token_set_ratio()等方法进行不同级别的模糊匹配。difflib则用于序列差异化比较，如get_close_matches()，Differ和HtmlDiff类，适用于文本差异比较和生成HTML差异报告。虽然difflib在模糊匹配精度上不足，但fuzzywuzzy适合词的模糊匹配。" 80257045,7669366,HBase配置详解与最佳实践,"['大数据开发', 'Hadoop', '数据库理论', '存储系统']

摘要由CSDN通过智能技术生成

1. 概述

利用python库：fuzzywuzzy及difflib，两个库均可实现词粒度的模糊匹配，同时可设定模糊阈值，实现关键词的提取、地址匹配、语法检查等

2. fuzzywuzzy

pip install fuzzywuzzy

from fuzzywuzzy import process
from fuzzywuzzy import fuzz

2.1 fuzzy模块

（1）模糊匹配方法

ratio()——简单匹配，使用纯Levenshtein Distance进行匹配。
partial_ratio()——非完全匹配，基于最佳的子串（substrings）进行匹配
token_set_ratio——忽略顺序匹配，对字符串进行标记（tokenizes）并在匹配之前按字母顺序对它们进行排序
token_set_ratio——去重子集匹配，对字符串进行标记（tokenizes）并比较交集和余数

（2）实例

ratio() 简单匹配

fuzz.ratio("河南省", "河南省")
>>> 100

fuzz.ratio("河南", "河南省")
>>> 80

partial_ratio() 非完全匹配

fuzz.partial_ratio("河南省", "河南省")
>>> 100

fuzz.partial_ratio("河南", "河南省")
>>> 100

token_set_ratio() 忽略顺序匹配

最低0.47元/天解锁文章

Lynqwest

关注

16
点赞
踩
180

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录