计算字符串相似度的一些方法

最新推荐文章于 2024-08-22 10:11:20 发布

一只路过的小码农cxy

最新推荐文章于 2024-08-22 10:11:20 发布

阅读量2.5k

点赞数 1

分类专栏： python 文章标签：字符串相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40156487/article/details/82907952

版权

这篇博客介绍了如何计算英文字符串的相似度，包括使用Levenshtein库的汉明距离、编辑距离和莱文斯坦比，difflib模块以及余弦定理。通过比较字母频率，利用余弦公式来确定字符串的相似程度。请注意，这种方法并不适合直接判断两个字符串是否表示同一城市。

摘要由CSDN通过智能技术生成

产品出了一个奇怪的需求，想通过字符串相似度取匹配城市= =（当然，最后证实通过字符串相似度取判断两个字符串是不是一个城市是不对的！！！）

这里就记录一下我计算字符串(英文字符串)相似度的方法吧～

参考文档：

Levenshtein

Levenshtein.hamming(str1, str2)

计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。

用法：
```
>>> import Levenshtein     
>>> Levenshtein.hamming('abc', 'cba')
2
>>> Levenshtein.hamming('abc', 'def')
3
```
Levenshtein.distance(str1, str2)

计算编辑距离（也成Levenshtein距离）。是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换。

用法：
```
>>> Levenshtein.distance('abc', 'ab')
1
>>> Levenshtein.distance('cxy', 'ab')
3
```
Levenshtein.ratio(str1, str2)

计算莱文斯坦比。计算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和，ldist是类编辑距离

注意：这里的类编辑距离不是Levenshtein.distance(str1, str2)所说的编辑距离，Levenshtein.distance(str1, str2)中三种操作中每个操作+1，而在此处，删除、插入依然+1，但是替换+2
这样设计的目的：ratio(‘a’, ‘c’)，sum=2,按2中计算为（2-1）/2 = 0.5,’a’,'c’没有重合，显然不合算，但是替换操作+2，就可以解决这个问题。

用法：

最低0.47元/天解锁文章

一只路过的小码农cxy

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

一只路过的小码农cxy CSDN认证博客专家 CSDN认证企业博客

码龄7年

47: 原创

6万+: 周排名

159万+: 总排名

19万+: 访问

: 等级

1337: 积分

172: 粉丝

128: 获赞

53: 评论

642: 收藏

私信

关注

热门文章

分类专栏

区块链 6篇
flask 1篇
sqlalchemy 1篇
fastapi 10篇
python 29篇
django 7篇
rest framework 1篇
python3.7标准库 7篇
celery 4篇
myql 2篇
操作系统 1篇
算法 3篇
tornado 2篇
面试

最新评论

如何构建“Buy Me a Coffee”DeFi dApp
变形者集群: 你好啊，我最近也在学习alchemy.university的这套课程，在这一章运行buy-coffee.js的时候发现这些代码需要更新了，但我又没有能力，所以来希望需求帮助。直接运行的时候报错了，估计是因为许多函数已经作废，用法已经更新，比如.deployed就要改成.waitfordeployment，否则会报错is not a function, .adddress要改成.target，否则部署地址无法直接显示。但是我还有些疑惑，就是报错TypeError: Cannot read properties of undefined (reading 'formatEther')。估计是format ether这个方法现在还有些问题？我进行了一番努力还没解决，希望你能帮帮我
apScheduler和fastapi交互
xiaobaishang: 如果是多个work呢，岂不是会出重复执行?
以太坊事务状态 - Pending, Mined, Dropped & Replaced
阿J~: 最近我也在学习写博客,有空来看看我呀，一起互相学习。期待你的关注与支持
吴恩达与OpenAI官方合作的ChatGPT提示工程课程笔记
谭欣tanxin: 在看b站的课程，边看边做笔记，结果一搜发现已经有人做了。笔记做得非常好。
吴恩达与OpenAI官方合作的ChatGPT提示工程课程笔记
VCHENGHENG: 太棒了，我自己做的笔记太扯了

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。