python利用difflib判断两个字符串的相似度

使用Python的difflib库可以轻松判断两个字符串的相似度,例如在抓取网页内容并入库时,若相似度高于70%则视为重复内容。本文展示了如何直接调用difflib进行相似度计算。
摘要由CSDN通过智能技术生成

我们再工作中可能会遇到需要判断两个字符串有多少相似度的情况(比如抓取页面内容存入数据库,如果相似度大于70%则判定为同一片文章,则不录入数据库)

那这个时候,我们应该怎么判断呢?

不要着急,python自带的difflib库就可以帮助我们解决这个问题。

首先,difflib是python自带的,所以不需要安装,直接引用即可。

活不多少,直接上代码

  代码如下:

  

import difflib

#判断相似度的方法,用到了difflib库
def get_equal_rate_1(str1, str2):
   return difflib.SequenceMatcher(None, str1, str2).quick_ratio()

#执行方法进行验证
if 
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值