子序列
假定字符序列A=a1,a2,...,an,如果存在字符序列S=c1,c2,...ck,所有字符都有cj=ai(j=1,2,...,k, i=1,2,...,n),并且cj是A的一个下标递增序列,则S是A的子序列。
例如A=123456789,则158,234,1479都是A的子序列,21345不是。
最长公共子序列
公共子序列同时为字符序列A和B的子序列,有多个,其中长度最长的一个为最长公共子序列(也可能有多个)。
最长公共子序列的问题是:找出给定序列A和B的最长公共子序列。
解题思路
序列A=a1,a2,...,an,B=b1,b2,...,bm。记Ak=a1,a2,...,ak,为序列A中最前面连续的k个字符的子序列(Bk则可即为b1,b2,...,bk)。
如果序列Sk=c1,c2,...,ck是序列A和B的最长公共子序列,则:
(1)若an=bm,则必有an=bm=ck,且序列Sk-1是序列An-1和Bm-1的长度为k-1的最长公共子序列。
(2)若an!=bm,
1)如果an!=ck,则序列Sk是序列An-1和B的长度为k的最长公共子序列。
2)如果bm!=ck,则序列Sk是序列An和Bm-1的长度为k的最长公共子序列。
如果记L(n,m)为序列An和Bm的最长公共子序列的长度,则L(i,j)为序列Ai和Bj的最长公共子序列的长度。根据最长公共子序列的性质,有以下公式(动态规划找出公式很重要):
L(0,0)=L(i,0)=L(0,j)=0 i=1,2,...,n, j=1,2,...,m
ai=bj时,L(i,j) = L(i-1, j-1) + 1
ai!=bj时,L(i,j) = max{L(i-1,j), L(i, j-1)}
为了找出子序列,设置一个二维数组记录上述公式中的3种状态:
状态1:ai=bj,
状态2:ai!=bj时,L(i-1,j)大,
状态3:ai!=bj时,L(i-1,j)小
根据3中状态反向(从n到0,m到0)搜索即可得到。
下面是实现的代码:
/*
* Author: xiaoshe
* Created Time: Fri 24 Oct 2014 03:57:54 PM CST
*/
#include <stdio.h>
#include <string.h>
#include <malloc.h>
#define LEN 256
int lcs(const char *s1, const char *s2, char out[]) {
int l1 = strlen(s1);
int l2 = strlen(s2);
// 申请空间,存放长度,length[i][j]
int length[LEN][LEN];
memset(length, 0, LEN * LEN * sizeof(int));
// 记录3种状态
int path[LEN][LEN];
memset(path, 0, LEN * LEN * sizeof(int));
int i, j;
for (i = 0; i < l1; ++i) {
for (j = 0; j < l2; ++j) {
if (s1[i] == s2[j]) {
// 字符数组s1,s2角标是从0开始的,
// length角标表示长度, length[i][j]表示长度分别为i和j的字符串的最长公共子序列长度
// 所以length角标比s1,s2多1
length[i+1][j+1] = length[i][j] + 1;
path[i+1][j+1] = 1;
} else if (length[i+1][j] > length[i][j+1]) {
// 取2者大的
length[i+1][j+1] = length[i+1][j]; // 表明[i+1]和[j+1]的最长,与[i+1]和[j]的最长一样
path[i+1][j+1] = 2;
} else {
length[i+1][j+1] = length[i][j+1];
path[i+1][j+1] = 3;
}
}
}
int len = length[l1][l2];
out[len--] = 0;
// 找出最长子序列
i = l1;
j = l2;
while (i > 0 && j > 0) {
if (path[i][j] == 1) {
out[len--] = s1[i-1];
--i;
--j;
} else if (path[i][j] == 2) {
--j;
} else {
--i;
}
}
return 0;
}
int main(int argc, char *argv[]) {
if (argc < 3) {
printf("./exe input_str1 input_str2\n");
return 0;
}
char out[1024];
int n = lcs(argv[1], argv[2], out);
printf("lcs: len=%d str=%s\n", n, out);
return 0;
}