python用Levenshtein计算文本相似度

最新推荐文章于 2024-08-07 17:50:00 发布

江水居士

最新推荐文章于 2024-08-07 17:50:00 发布

阅读量528

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_35557718/article/details/119037817

版权

字符串相似度 Levenshtein距离 Hamming距离 Jaro-Winkler距离文本处理

关键词由CSDN通过智能技术生成


from Levenshtein import *

apply_edit()  #根据第一个参数editops（）给出的操作权重，对第一个字符串基于第二个字符串进行相对于权重的操作
 
distance() #计算2个字符串之间需要操作的绝对距离
 
editops() #找到将一个字符串转换成另外一个字符串的所有编辑操作序列
 
hamming() #计算2个字符串不同字符的个数，这2个字符串长度必须相同
 
inverse() #用于反转所有的编辑操作序列
 
jaro() #计算2个字符串的相识度，这个给与相同的字符更高的权重指数
 
jaro_winkler() #计算2个字符串的相识度，相对于jaro 他给相识的字符串添加了更高的权重指数，所以得出的结果会相对jaro更大（%百分比比更大）
 
matching_blocks() #找到他们不同的块和相同的块，从第六个开始相同，那么返回截止5-5不相同的1，第8个后面也开始相同所以返回8-8-1，相同后面进行对比不同，最后2个对比相同返回0
 
median() #找到一个列表中所有字符串中相同的元素，并且将这些元素整合，找到最接近这些元素的值，可以不是字符串中的值。
 
median_improve() #通过扰动来改进近似的广义中值字符串。
 
opcodes() #给出所有第一个字符串转换成第二个字符串需要权重的操作和操作详情会给出一个列表，列表的值为元祖，每个元祖中有5个值
    #[('delete', 0, 1, 0, 0), ('equal', 1, 3, 0, 2), ('insert', 3, 3, 2, 3), ('replace', 3, 4, 3, 4)]
    #第一个值是需要修改的权重，例如第一个元祖是要删除的操作,2和3是第一个字符串需要改变的切片起始位和结束位，例如第一个元祖是删除第一字符串的0