python中string库_在Python中模糊string比较，与哪个库混淆使用

最新推荐文章于 2023-12-20 21:00:00 发布

袁大岛

最新推荐文章于 2023-12-20 21:00:00 发布

阅读量114

点赞数

文章标签： python中string库

本文链接：https://blog.csdn.net/weixin_35808305/article/details/111990316

版权

如果你对Levenshtein和Difflib的相似度进行快速的视觉比较感兴趣，我计算了两百三十万的书名：

import codecs, difflib, Levenshtein, distance with codecs.open("titles.tsv","r","utf-8") as f: title_list = f.read().split("\n")[:-1] for row in title_list: sr = row.lower().split("\t") diffl = difflib.SequenceMatcher(None, sr[3], sr[4]).ratio() lev = Levenshtein.ratio(sr[3], sr[4]) sor = 1 - distance.sorensen(sr[3], sr[4]) jac = 1 - distance.jaccard(sr[3], sr[4]) print diffl, lev, sor, jac

然后我用R绘制结果：

为了好奇，我还比较了Difflib，Levenshtein，Sørensen和Jaccard的相似度值：

library(ggplot2) require(GGally) difflib

结果：

Difflib / Levenshtein的相似性真的很有趣。