python对比文本相似度

最新推荐文章于 2024-05-10 05:15:00 发布

Jingle-stu

最新推荐文章于 2024-05-10 05:15:00 发布

阅读量4.3k

点赞数

分类专栏：实习日志文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40006760/article/details/119008560

版权

实习日志专栏收录该内容

9 篇文章 0 订阅

订阅专栏

方法：使用difflib中的SequenceMatcher

s=difflib.SequenceMatcher(isjunk=None,a,b, autojunk=True) ：构造函数，主要创建任何类型序列的比较对象。isjunk是关键字参数，主要设置过滤函数，如想丢掉a和b比较序列里特定的字符，就可以设置相应的函数
s.get_opcodes()函数每执行一次返回5个元素的元组，元组描述了a和b比较序列的相同不同处。5个元素的元组表示为(tag, i1, i2, j1, j2)，其中tag表示动作，i1表示序列a的开始位置，i2表示序列a的结束位置，j1表示序列b的开始位置，j2表示序列b的结束位置。
tag表示的字符串有：
- replace ：表示a[i1 : i2]将要被b[j1 : j2]替换。
- delete ：表示a[i1 : i2]将要被删除。
- Insert ：表示b[j1 : j2]将被插入到a[i1 : i1]地方。
- equal ：表示a[i1 : i2] == b[j1 : j2]相同。
相似度s.ratio(), 相似度的计算公式为2*m/t,其中m表示a,b相同的字符长度， t表示a,b两个字符串总共的长度

示例：

from difflib import SequenceMatcher
a = "abcdef"
b = "abcde"
s = SequenceMatcher(None, a, b)
print(s.ratio())
for tag, i1, i2, j1, j2 in s.get_opcodes():
    # print ("%7s a[%d:%d] (%s) b[%d:%d] (%s)" %  (tag, i1, i2, a[i1:i2], j1, j2, b[j1:j2]))
    if tag != 'equal':
        print("%7s a[%d:%d] (%s) b[%d:%d] (%s)" % (tag, i1, i2, a[i1:i2], j1, j2, b[j1:j2]))

运行结果：

其中相似度计算为：

相同的字符为abcde共5个字符，a,b总共字符数为11，则相似度为2*5/11 = 0.90909090…

参考链接：https://blog.csdn.net/m0_37586703/article/details/105707507

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
python对比文本相似度

1
复制链接

扫一扫

专栏目录

Jingle-stu CSDN认证博客专家 CSDN认证企业博客

码龄7年

16: 原创

55万+: 周排名

16万+: 总排名

4万+: 访问

: 等级

225: 积分

10: 粉丝

34: 获赞

11: 评论

149: 收藏

私信

关注

热门文章

分类专栏

java 1篇
实习日志 9篇

最新评论

使用restTemplate过程中遇到的问题记录
CSDN-Ada助手: 恭喜您写了第16篇博客，标题看起来很有深度呢！使用restTemplate过程中遇到的问题记录，这个话题听起来很有技术含量。希望您能继续保持创作的热情，分享更多的经验和心得。或许下一步可以考虑分享一些解决问题的实际案例，或者是对于restTemplate的进一步深入探讨，让读者能够更好地理解和应用这个工具。期待您的下一篇博客！
【无标题】
qq_36798934: 看到请尽快回复
【无标题】
qq_36798934: katalon注册的问题一直loading，解决了吗
安装django-haystack遇到的问题
爱的瀚海天空: install: invalid option -- 'i' Try 'install --help' for more information.
python读doc文档-win32com
cc256288: 这个是本地必须装word才行嘛

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。