编辑距离(同源去重算法)

编辑距离是一种衡量字符串相似度的方法,通过计算将一个字符串转换为另一个字符串所需的最少操作次数。在爬虫领域,该算法可以用于去除重复的网页内容。本文介绍了编辑距离的计算步骤,并展示了如何利用它来求得字符串的相似度,从而实现有效去重。
摘要由CSDN通过智能技术生成

原理:表示将串s[ 1…i ] 转换为 串t [ 1…j ]所需要的最少步骤个数。(以下方框中的数字就表示的步骤数)

step 1:初始化如下矩阵
这里写图片描述

step 2:从源串的第一个字符(“j”)开始,从上至下与目标串进行对比,如果两个字符相等,则在从此位置的左,上,左上三个位置中取出最小的值;若不等,则在从此位置的左,上,左上三个位置中取出最小的值再加上1;
第一次,源串第一个字符“j” 与目标串的“j”对比,左,上,左上三个位置中取出最小的值0,因为两字符相等,所以加上0;接着,依次对比“j”→“e”,“j”→“r”,“j”→“r”,,“j”→“y” 到扫描完目标串。

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值