使用python获取字段相似度匹配最接近的值

目录

一、前言

二、简单介绍fuzzywuzzy

三、mysql表数据对照,取相似度最高值

四、将代码打包成可执行文件


一、前言

对于做数据治理、数据集成平台都会涉及到数据标准化、mdm主数据管理,说白了就是字典对照,那么对于一些又多又杂的数据字典(如医疗中的诊断、检验项目)人工对照实在是耗时耗力耗眼睛。

针对上面的问题,本文介绍了以下几点内容:

1.python第三方库 fuzzywuzzy

2.python打包可执行文件

二、简单介绍fuzzywuzzy

fuzzywuzzy是一个Python库,用于模糊字符串匹配,可以帮助你在处理文本数据时,找到最相似的字符串。它使用Levenshtein距离算法来计算两个字符串之间的相似度。

fuzzywuzzy库提供了两个主要的函数:fuzz  和  process

fuzz 函数用于计算两个字符串之间的相似度,它返回一个介于0和100之间的整数,表示两个字符串的相似度,示例如下:

    from fuzzywuzzy import fuzz

    string1 = "apple"
    string2 = "appel"
    similarity = fuzz.ratio(string1, string2)
    print(similarity)  # 输出: 91

process函数用于在一个字符串列表中查找与给定字符串最相似的字符,示例如下:

from fuzzywuzzy import process

string = "appl
  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值