dbf 数据类型不匹配_字符串模糊匹配实践

from fuzzywuzzy import fuzz
from fuzzywuzzy import process
from fuzzyfinder import fuzzyfinder

title_list = [u"数据分析师", u"数据挖掘工程师", u"大数据开发工程师", u"机器学习工程师",
               u"算法工程师", u"数据库管理", u"商业分析师", u"数据科学家", u"首席数据官",
               u"数据产品经理", u"数据运营", u"大数据架构师", "Data Analyst"]
aa = process.extractOne(u"算法", title_list,scorer=fuzz.UWRatio) # 返回 ('算法工程师', 90)
print(aa)
suggestions = fuzzyfinder('数据分析师', ['具有数据类型分析能力的专业工程师','qux'])
result = list(suggestions)
print(result)
if len(result)>0:
    print('yes')
运行结果:
('算法工程师', 90)
['具有数据类型分析能力的专业工程师']
yes

我想要查找一个句子的模糊匹配词,使用了两种fuzz和fuzzyfinder工具

其中fuzz是编辑距离匹配法则,这里不考虑了;

我想着重说第二个包 fuzzyfinder:

例如对于一个句子:具有数据类型分析能力的专业工程师

我想看看这个句子里面 是否有 数据分析师 这个词对应的每个字,如果有的话我就给出

标签 数据分析师,这里需要注意的是,数据分析师 中的每个字与句子中出现的‘数’,‘据’,‘分’,‘析’,‘师’顺序需要一致才能够匹配出来

我之前也写了一个类似的代码,并且代码里面还设置了查找窗口,不过可能没有这个工具好用,这里直接用这个工具来用了;

另外如果要查询百万甚至千万级别的基于编辑距离的字符串,可以使用bk树来进行查找,速度非常快 使用pybktree即可;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值