LCS(Longest Common Sequence)最长公共子序列算法
最长公共子序列就是在两个字符串中找出相同且最长的子序列,其中该子序列并不要求是连续的。假设我们拥有两个序列 S1 和 S2 ,其中序列 S1 的长度为m, S2 的长度为n,那么我们知道这两个序列的最长公共子序列长度可以分两种情况来探讨,
- 当 S1[m−1]==S2[n−1] 时, S1 和 S2 的最长公共子序列便为子字符串 S1.substr(m−1) 和 S2.substr(n−1) 的最长公共子序列加1;
- 当 S1[m−1]≠S2[n−1] 时,其最长的公共子序列取的是子字符串 S1.substr(m−1) 和 S2 的最长公共子序列 与 子字符串 S2.substr(n−1) 和 S1 的最长公共子序列中最大的那个
通过上面的分析我们可以看出来这是一个明显的动态回归问题,为了避免重复计算,我们只需要利用一个二维数组a[m+1][n+1]来把各个子字符串的最长公共子序列的长度记录下来即可,这里我们令a[i][j]表示长度为i的字符串与长度为j的字符串的最长公共子序列的长度,那么有
a[i][j]=⎧⎩⎨01+a[i−1][j−1]max{a[i−1][j],a[i][j−1]}i=0|j=0;s1[i−1]==s2[j−1];s1[i−1]≠s2[j−1]
因此 a[m][n] 的值即为字符串 S1 和字符串 S2 的最长公共子序列的长度。代码如下所示:
public int LCS(ArrayList<String> path1, ArrayList<String> path2){
int len1 = path1.size();
int len2 = path2.size();
int a[][] = new int[len1 + 1][len2 + 1];
for(int i = 0; i <= len1; ++i){
for(int j = 0; j <= len2; ++j){
if(i == 0 || j == 0)
a[i][j] = 0;
else if(path1.get(i - 1).compareTo(path2.get(j - 1)) == 0)
a[i][j] = a[i - 1][j - 1] + 1;
else
a[i][j] = a[i - 1][j] > a[i][j - 1] ? a[i - 1][j] : a[i][j - 1];
}
}
return a[len1][len2]);
}