文本相似度difflib、Levenshtein

最新推荐文章于 2024-03-31 08:30:00 发布

大大知

最新推荐文章于 2024-03-31 08:30:00 发布

阅读量124

点赞数

文章标签： python

本文链接：https://blog.csdn.net/babyfc0730/article/details/133618495

版权

本文介绍了使用Python的Levenshtein和difflib库计算字符串相似度的方法，特别是Levenshtein_ratio通过编辑距离来衡量相似度，而difflib_SequenceMatcher的quick_ratio可能涉及更复杂的字符匹配。

摘要由CSDN通过智能技术生成

import Levenshtein
import difflib

def text_similarity(str1, str2):
    
    #1.Levenshtein_ratio方法
    #distance(str1, str2) 编辑距离：描述一个字符串转成另一个字符串最少的操作次数，操作包括：插入、删除、替换；
    distance = Levenshtein.distance(str1, str2)
    Levenshtein_ratio = 1 - (distance / max(len(str1), len(str2)))
    
    #2.difflib方法
    difflib_ratio = difflib.SequenceMatcher(None, str(str1), str(str2)).quick_ratio()
    
    return round(Levenshtein_ratio ,3) , round(difflib_ratio ,3)


str1 = 'hello world'
str2 = 'hello owrld'  #world的顺序调换
str3 = 'helloowrld'

print(text_similarity(str1,str2))  -- >> (0.818, 1.0)

print(text_similarity(str3,str2))  -- >> (0.909, 0.952) 
# Levenshtein_ratio 的逻辑：调整一个字符，最大字符为11，则1-1/11=0.909
# difflib_ratio 的逻辑见下面的说明

Levenshtein_ratio方法的原理：

distance(str1, str2) 编辑距离：描述一个字符串转成另一个字符串最少的操作次数，操作包括：插入、删除、替换；
ratio(str1, str2) 计算莱文斯坦比：r = (sum - ldist) / sum，sum 指的是 str1 和 str2 字符串长度之和，ldist 为类编辑距离（插入删除为1，替换为2）

这里会统计空格、括号等符号；

没找到difflib的计算逻辑，但看结果是仿佛是这个意思，这个和上面Levenshtein_ratio的解释看似是一样的，但是不知道是不是我找到的Levenshtein_ratio计算方法有问题，得到的结果并不是这样，先记录在此，以后再看了

总len = len(str1) + len(str2)

重合len = len(重合的字符in str1) + len(重合的字符in str2)

difflib_ratio = 重合len / 总len

大大知

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
文本相似度difflib、Levenshtein

ratio(str1, str2) 计算莱文斯坦比：r = (sum - ldist) / sum，sum 指的是 str1 和 str2 字符串长度之和，ldist 为类编辑距离（插入删除为1，替换为2）distance(str1, str2) 编辑距离：描述一个字符串转成另一个字符串最少的操作次数，操作包括：插入、删除、替换；重合len = len(重合的字符in str1) + len(重合的字符in str2)总len = len(str1) + len(str2)这里会统计空格、括号等符号；
复制链接

扫一扫