文本相似度计算之--- 编辑距离 && 最长公共子串

最新推荐文章于 2024-08-15 13:39:06 发布

YXY_1989

最新推荐文章于 2024-08-15 13:39:06 发布

阅读量2.5k

点赞数

分类专栏：算法文章标签：自然语言处理算法最长公共子串编辑距离动态规划

本文链接：https://blog.csdn.net/yangxiangyuibm/article/details/39005743

版权

在自然语言处理中，文本相似度计算是基础问题，包括基于字符串和语义的方法。本文主要介绍两种字符串层面的算法：最长公共子串和编辑距离。最长公共子串要求连续的共同字符部分；编辑距离则是衡量从一个字符串转换到另一个所需的最小操作步数，包括替换、插入和删除字符。通过动态规划，可以计算这两个度量。

摘要由CSDN通过智能技术生成

问题引入：在自然语言处理领域里，求文本相似度是最基本的问题，对于这个问题，可以分为大的两类，一种是基于字符串层次的相似度计算，一种是基于语义的相似度计算。我会循序渐进的讲给大家。

本文我们先来看最简单的两种基于字符串层面的相似度度量算法。

1. 最长公共子串

对于最长公共子串，不难想象，就是要求两个字符串中出现的共同字符部分，并且这些字符必须是连续的，比如，aaabcdeff和bcdffab，那么他们最长的公共子串即是bcd，长度为3，其实问题很简单，大家可以这么想，如果两个字符串的公共子串存在，那么可以有如下的推导：s1, s2为两个字符串，cnt为子串长度的计数数组，则：

if s1[i] == s2[j] , cnt[j]=cnt[j-1]+1;

else cnt[j]=0;

此处我们设置maxlen标记最大长度，若有cnt[j]>maxlen，则maxlen=cnt[j]，然后记录位置j，以便可以输出最长公共子串。

下面附上代码：

public class Test{
	public void findLCS(String s1,String s2){
		int len1 = s1.length();
		int len2 = s2.length();
		char[] cs1 = s1.toCharArray();
		char[] cs2 = s2.t