文本相似度difflib、Levenshtein

本文介绍了使用Python的Levenshtein和difflib库计算字符串相似度的方法,特别是Levenshtein_ratio通过编辑距离来衡量相似度,而difflib_SequenceMatcher的quick_ratio可能涉及更复杂的字符匹配。
摘要由CSDN通过智能技术生成
import Levenshtein
import difflib

def text_similarity(str1, str2):
    
    #1.Levenshtein_ratio方法
    #distance(str1, str2) 编辑距离:描述一个字符串转成另一个字符串最少的操作次数,操作包括:插入、删除、替换;
    distance = Levenshtein.distance(str1, str2)
    Levenshtein_ratio = 1 - (distance / max(len(str1), len(str2)))
    
    #2.difflib方法
    difflib_ratio = difflib.SequenceMatcher(None, str(str1), str(str2)).quick_ratio()
    
    return round(Levenshtein_ratio ,3) , round(difflib_ratio ,3)


str1 = 'hello world'
str2 = 'hello owrld'  #world的顺序调换
str3 = 'helloowrld'

print(text_similarity(str1,str2))  -- >> (0.818, 1.0)

print(text_similarity(str3,str2))  -- >> (0.909, 0.952) 
# Levenshtein_ratio 的逻辑:调整一个字符,最大字符为11,则1-1/11=0.909
# difflib_ratio 的逻辑见下面的说明

Levenshtein_ratio方法的原理:

distance(str1, str2) 编辑距离:描述一个字符串转成另一个字符串最少的操作次数,操作包括:插入、删除、替换;
ratio(str1, str2) 计算莱文斯坦比:r = (sum - ldist) / sum,sum 指的是 str1 和 str2 字符串长度之和,ldist 为类编辑距离(插入删除为1,替换为2)

这里会统计空格、括号等符号;

没找到difflib的计算逻辑,但看结果是仿佛是这个意思,这个和上面Levenshtein_ratio的解释看似是一样的,但是不知道是不是我找到的Levenshtein_ratio计算方法有问题,得到的结果并不是这样,先记录在此,以后再看了

总len = len(str1) + len(str2)

重合len = len(重合的字符in str1) + len(重合的字符in str2)

difflib_ratio = 重合len / 总len

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值