文本相似度计算之--- 编辑距离 && 最长公共子串

问题引入:在自然语言处理领域里,求文本相似度是最基本的问题,对于这个问题,可以分为大的两类,一种是基于字符串层次的相似度计算,一种是基于语义的相似度计算。我会循序渐进的讲给大家。


本文我们先来看最简单的两种基于字符串层面的相似度度量算法。


1. 最长公共子串

对于最长公共子串,不难想象,就是要求两个字符串中出现的共同字符部分,并且这些字符必须是连续的,比如,aaabcdeff和bcdffab,那么他们最长的公共子串即是bcd,长度为3,其实问题很简单,大家可以这么想,如果两个字符串的公共子串存在,那么可以有如下的推导:s1, s2为两个字符串,cnt为子串长度的计数数组,则:

if   s1[i] == s2[j]   ,   cnt[j]=cnt[j-1]+1;

else   cnt[j]=0;

此处我们设置maxlen标记最大长度,若有cnt[j]>maxlen,则maxlen=cnt[j],然后记录位置j,以便可以输出最长公共子串。

下面附上代码:

public class Test{
	public void findLCS(String s1,String s2){
		int len1 = s1.length();
		int len2 = s2.length();
		char[] cs1 = s1.toCharArray();
		char[] cs2 = s2.t
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值