问题引入:在自然语言处理领域里,求文本相似度是最基本的问题,对于这个问题,可以分为大的两类,一种是基于字符串层次的相似度计算,一种是基于语义的相似度计算。我会循序渐进的讲给大家。
本文我们先来看最简单的两种基于字符串层面的相似度度量算法。
1. 最长公共子串
对于最长公共子串,不难想象,就是要求两个字符串中出现的共同字符部分,并且这些字符必须是连续的,比如,aaabcdeff和bcdffab,那么他们最长的公共子串即是bcd,长度为3,其实问题很简单,大家可以这么想,如果两个字符串的公共子串存在,那么可以有如下的推导:s1, s2为两个字符串,cnt为子串长度的计数数组,则:
if s1[i] == s2[j] , cnt[j]=cnt[j-1]+1;
else cnt[j]=0;
此处我们设置maxlen标记最大长度,若有cnt[j]>maxlen,则maxlen=cnt[j],然后记录位置j,以便可以输出最长公共子串。
下面附上代码:
public class Test{
public void findLCS(String s1,String s2){
int len1 = s1.length();
int len2 = s2.length();
char[] cs1 = s1.toCharArray();
char[] cs2 = s2.t