问题描述:
一个给定序列的子序列是在该序列中删除若干元素后得到的序列。给定2个序列 X 和 Y,当另一序列 Z 既是X的子序列又是Y的子序列时,称Z是序列X和Y的公共子序列。
最长公共子序列问题是,给定2个序列 X={x1,x2,…,xm}和 Y={y1,y2,…,yn},找出 X 和 Y 的最长公共子序列。
算法思路:
设X={x1,x2,…,xm}和 Y={y1,y2,…,yn}的最长公共子序列为Z={z1,z2,…,zk},则
- 当xm=yn时,则zk=xm=yn,且Zk-1是Xm-1和Yn-1的最长公共子序列。
- 当xm≠yn,zk=yn时,则Z是Xm-1和Y的最长公共子序列。
- 当xm≠yn,zk=xm时,则Z是X和Yn-1的最长公共子序列。
其中Xm-1={x1,x2,…,xm-1},Yn-1={y1,y2,…,yn-1},Zk-1={z1,z2,…,zk-1}。
由上述关系可得如下递归关系:
- c[i][j]=0 (i=0或j=0)
- c[i][j]=c[i-1][j-1]+1 (i>0且j>0且xi=yj)
- c[i][j]=max{c[i][j-1],c[i-1][j]} (i>0且j>0且xi≠yj)
其中c[i][j]表示序列Xi和Yj的最长公共子序列。
c[i][j]只能表示最长公共子序列的个数,为了能输出最长公共子序列,我们需要一个二维数组b[i][j]来标记递归关系。当i>0且j>0且xi=yj时,用b[i][j]=1来标记;当xm≠yn,zk=yn时,用b[i][j]=2来标记;当xm≠yn,zk=xm时,用b[i][j]=3来标记;这样在追踪最长公共子序列时,就能根据标记来输出子序列。
代码展示:
void LCSLength(char *x, char *y, int m, int n, int **c, int **b){
int i,j;
for(i=1;i<=m;++i){
c[i][0] = 0;
}
for(i=1;i<=n;++i){
c[0][i] = 0;
}
for(i=1;i<=m;++i){
for(j=1;j<=n;++j){
if(x[i] == y[j]){
c[i][j] = c[i-1][j-1]+1;
b[i][j] = 1;
}else if(c[i-1][j] >= c[i][j-1]){
c[i][j] = c[i-1][j];
b[i][j] = 2;
}else{
c[i][j] = c[i][j-1];
b[i][j] = 3;
}
}
}
}
void LCS(int i, int j, char *x, int **b){
if(i == 0 || j == 0) return;
if(b[i][j] == 1){
LCS(i-1,j-1,x,b);
cout<<x[i];
}else if(b[i][j] == 2){
LCS(i-1,j,x,b);
}else{
LCS(i,j-1,x,b);
}
}
运行结果: